Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Засновник @getoutbox_ai
Дізнайтеся, як створювати AI-агентів безкоштовно 👉 https://t.co/q9zPwlldZ4
Ця стаття групи BMW та провідного дослідницького інституту Кореї виявляє сліпу зону, в яку майже кожна компанія з LLM потрапляє одразу.
Ми постійно говоримо про «вирівнювання», ніби це універсальний запобіжний вимикач.
Це не так.
У статті представлено COMPASS — фреймворк, який показує, чому більшість систем ШІ зазнають невдачі не через їхню небезпеку, а через неправильне узгодження з організацією, що їх впроваджує.
Ось основна ідея.
LLM зазвичай оцінюються за загальними політиками: правилами безпеки платформи, абстрактними етичними рекомендаціями або відмовами у стилі бенчмарків.
Але справжні компанії не працюють за загальними правилами.
Вони працюють за внутрішніми політиками:
- Посібники з відповідності
- Оперативні ігрові посібники
- процедури ескалації
- Юридичні крайні справи
- обмеження, специфічні для бренду
І ці правила є заплутаними, перекриваються, умовними і сповненими винятків.
COMPASS створений для перевірки, чи може модель справді працювати в цьому безладі.
Не те, чи знає вона мову політики, а чи може застосувати правильну політику, у правильному контексті, з правильної причини.
Фреймворк оцінює моделі за чотирма аспектами, які типові еталони ігнорують:
1. Вибір політики: Коли існує кілька внутрішніх політик, чи може модель визначити, яка з них застосовується до цієї ситуації?
2. тлумачення політики: чи може він міркувати через умови, винятки та розмиті положення замість того, щоб за замовчуванням переходити до надмірно безпечної або надмірно дозволяючої поведінки?
3. вирішення конфліктів: Коли два правила стикаються, чи вирішує модель конфлікт так, як задумала організація, а не так, як це зробила б загальна евристика безпеки?
4. обґрунтування: Чи може модель пояснити своє рішення, спираючись на політичний текст, а не даючи впевнену, але невідстежувану відповідь?
Одне з найважливіших висновків є тонким і неприємним:
Більшість невдач не були знаннями.
Це були невдачі в логіці.
Моделі часто мали доступ до відповідної політики, але:
- застосував неправильний розділ
- ігноровані умовні обмеження
- надмірно узагальнені заборони
- або за замовчуванням користуватися консервативними відповідями, які порушували операційні цілі
Ззовні ці відповіді виглядають «безпечно».
Зсередини вони помиляються.
Це пояснює, чому LLM проходять публічні еталонги, але проривають у реальних впровадженнях.
Вони ні з ким конкретно не пов'язані.
Глибший наслідок статті має стратегічний характер.
Не існує такого поняття, як «один раз узгоджений, увесь узгоджений».
Модель, орієнтована на автовиробника, банку, лікарні та державній установі — це не одна модель з різними підказками.
Це чотири різні проблеми з вирівнюванням.
COMPASS не намагається виправити вирівнювання.
Він робить щось важливіше для підприємств:
Це робить невирівнювання вимірюваним.
І коли невирівнювання стає вимірюваним, це стає інженерною проблемою, а не філософською.
Ось цей зсув, який ця газета тихо просуває.
Вирівнювання — це не про безпеку в абстрактному сенсі.
Йдеться про те, щоб бути правильним у межах правил конкретної організації.
І поки ми не оцінимо це безпосередньо, більшість «готових до виробництва» систем ШІ — це просто добре оформлені зобов'язання.

43
Більшість людей використовують ШІ як пошукову систему.
Я витратив 3 місяці, вивчаючи Google, OpenAI та внутрішні фреймворки підказок Стенфорда.
Різниця між базовим і експертним підказками схожа на різницю між наймом стажера і PhD зі Стенфорда.
Ось 5 стратегій підказки, які відрізняють початківців від майстрів:
1/ Мета-підказки: Дозвольте ШІ розробляти ваші підказки
Замість того, щоб гадати, попросіть ШІ створити ідеальний підказку для вас.
Google називає це «стратегіями підсилення».
Приклад: «Ви — експерт з інженерії prompt. Розробіть оптимальний запит для [вашої мети], включно з ролями, контекстом і форматом результату.»
Штучний інтелект стає вашим архітектором запитів.
2/ Ланцюг думок: Покрокове міркування Сили
Не просто просіть відповіді. Вимагайте процесу мислення.
Додайте: «Давайте думати крок за кроком» або «Покажіть свої міркування»
Дослідження показують, що точність у складних задачах зростає з 18% → 57%.
Модель не просто відповідає — вона справді пояснює причини.
3/ Підказка для ролі: Призначте експертні персони
Generic AI = загальні результати.
Почніть з: «Ви — [конкретний експерт] з 15-річним досвідом у [галузі]»
Модель адаптує глибину знань, словниковий запас і підхід, щоб відповідати цій експертизі.
Ця одна лінія змінює якість виходу.
4/ Підказка від найменшого до найбільшого: розбирайте складні проблеми на частини
Ось як Стенфорд справляється з неможливими завданнями:
- Розкласти задачу на підзадачі
- Розв'язувати кожен послідовно
- Використовуйте попередні відповіді для інформування наступних кроків
Ідеально підходить для багатокрокового міркування, програмування та стратегічного планування.
5/ Системні інструкції: Встановлення робочих параметрів
Це підказка на рівні виробництва.
Визначте обмеження на початку:
- Рівень багатослівності
- Вихідний формат (JSON, markdown, таблиці)
- Тон і стиль
- Чого НЕ слід робити
Уявіть це як програмування особистості ШІ до того, як він заговорить.
Опануйте контекст, а не лише слова.
Різниця між середніми та винятковими результатами ШІ не в моделі.
Важливо, як ти з нею спілкуєшся.
Ці 5 стратегій використовуються внутрішньо в Google, OpenAI та Стенфорді.
Тепер вони твої.
Почніть застосовувати їх вже сьогодні і спостерігайте, як трансформуються ваші AI-результати.

51
Найкращі
Рейтинг
Вибране

