Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

prinz

Не бойтесь величия

Юлиан Шриттвизер (Anthropic): - Обсуждение пузыря ИИ в X "очень отделено" от того, что происходит в передовых лабораториях. "В передовых лабораториях мы не наблюдаем замедления прогресса." - ИИ окажет "огромное экономическое влияние". Прогнозы доходов для OpenAI, Anthropic и Google на самом деле "довольно консервативны". - Экстраполируя данные, такие как данные METR, в следующем году модели смогут работать самостоятельно по целому ряду задач. Длина задачи важна, потому что это открывает возможность для человека контролировать команду моделей, каждая из которых работает автономно в течение нескольких часов (в отличие от необходимости общаться с агентом каждые 10 минут, чтобы дать ему обратную связь). - "Крайне вероятно", что текущий подход к обучению моделей ИИ (предварительное обучение, RL) приведет к созданию системы, которая сможет выполнять задачи на уровне человека по всем задачам, которые мы считаем важными с точки зрения продуктивности. - О Move 37: "Я думаю, что довольно очевидно, что эти модели могут делать новые вещи." AlphaCode и AlphaTensor "доказали, что можно открывать новые программы и алгоритмы". ИИ "абсолютно уже открывает новые вещи", и "мы просто поднимаемся по шкале того, насколько впечатляющими и интересными являются вещи, которые он может открывать самостоятельно." - "Очень вероятно", что в следующем году мы увидим некоторые открытия, которые люди единогласно признают супер-впечатляющими. - ИИ сможет самостоятельно сделать прорыв, достойный Нобелевской премии в 2027 или 2028 году. - О способности ИИ ускорять развитие ИИ: очень распространенной проблемой во многих научных областях является то, что становится все труднее делать прорывы по мере развития области (т.е. 100 лет назад один ученый мог случайно открыть первый антибиотик, тогда как сейчас требуется миллиарды долларов, чтобы открыть новое лекарство). То же самое может произойти с исследованиями ИИ - хотя ИИ сделает исследования нового ИИ более продуктивными, может не произойти взрыв из-за того, что новые прорывы становятся все труднее находить.

Не понимаете экспоненциальный рост, снова? Мой разговор с @Mononofu - Юлианом Шритвайзером (@AnthropicAI, AlphaGo Zero, MuZero) - о ходе 37, масштабировании RL, Нобелевской премии по ИИ и границах ИИ: 00:00 - Холодное открытие: "Мы не видим никакого замедления." 00:32 - Введение — знакомьтесь с Юлианом 01:09 - "Экспоненциальный" изнутри передовых лабораторий 04:46 - 2026–2027: агенты, работающие полный день; экспертный уровень охвата 08:58 - Эталоны против реальности: работа на длинных горизонтах, GDP-Val, ценность для пользователей 10:26 - Ход 37 — что на самом деле произошло и почему это имело значение 13:55 - Новая наука: AlphaCode/AlphaTensor → когда ИИ получит Нобеля? 16:25 - Дискретность против плавного прогресса (и знаки предупреждения) 19:08 - Приводит ли предобучение + RL к результату? (дебаты AGI в стороне) 20:55 - "RL с нуля" Саттона? Мнение Юлиана 23:03 - Путь Юлиана: Google → DeepMind → Anthropic 26:45 - AlphaGo (обучение + поиск) на простом языке 30:16 - AlphaGo Zero (без человеческих данных) 31:00 - AlphaZero (один алгоритм: го, шахматы, сёги) 31:46 - MuZero (планирование с обученной моделью мира) 33:23 - Уроки для сегодняшних агентов: поиск + обучение в масштабе 34:57 - Есть ли у LLM уже неявные модели мира? 39:02 - Почему RL на LLM заняло время (стабильность, обратные связи) 41:43 - Вычисления и масштабирование для RL — что мы видим до сих пор 42:35 - Граница вознаграждений: человеческие предпочтения, рубрики, RLVR, процессуальные вознаграждения 44:36 - Данные для обучения RL и "маховик" (и почему качество имеет значение) 48:02 - RL и агенты 101 — почему RL открывает устойчивость 50:51 - Должны ли строители использовать RL как услугу? Или просто инструменты + подсказки? 52:18 - Что не хватает для надежных агентов (возможности против инженерии) 53:51 - Оценки и Гудхарт — внутренние против внешних эталонов 57:35 - Механистическая интерпретируемость и "Золотые ворота Клода" 1:00:03 - Безопасность и согласование в Anthropic — как это проявляется на практике 1:03:48 - Работы: человеческая–ИИ комплементарность (сравнительное преимущество) 1:06:33 - Неравенство, политика и случай для 10× производительности → изобилие 1:09:24 - Заключительные мысли

Заявление от CISO OpenAI о смягчении рисков инъекций команд в Atlas

Вчера мы запустили ChatGPT Atlas, наш новый веб-браузер. В Atlas агент ChatGPT может выполнять задачи за вас. Мы рады видеть, как эта функция делает работу и повседневную жизнь более эффективными и результативными для людей. Агент ChatGPT мощный и полезный, и разработан с учетом безопасности, но он все еще может допускать (иногда неожиданные!) ошибки, такие как попытка купить неправильный продукт или забыть проверить с вами перед тем, как предпринять важное действие. Одним из возникающих рисков, которые мы очень тщательно исследуем и смягчаем, являются инъекции команд, когда злоумышленники скрывают вредоносные инструкции на веб-сайтах, в электронных письмах или других источниках, чтобы попытаться обмануть агента и заставить его вести себя непредсказуемо. Цель злоумышленников может быть такой же простой, как попытка повлиять на мнение агента во время покупок, или такой же серьезной, как попытка заставить агента получить и раскрыть личные данные, такие как конфиденциальная информация из вашей электронной почты или учетные данные. Наша долгосрочная цель заключается в том, чтобы вы могли доверять агенту ChatGPT использовать ваш браузер так же, как вы бы доверяли своему самому компетентному, надежному и осведомленному о безопасности коллеге или другу. Мы усердно работаем над достижением этой цели. Для этого запуска мы провели обширное тестирование на уязвимости, внедрили новые методы обучения модели, чтобы вознаграждать модель за игнорирование вредоносных инструкций, реализовали перекрывающиеся защитные меры и добавили новые системы для обнаружения и блокировки таких атак. Однако инъекция команд остается неразрешенной проблемой безопасности, и наши противники будут тратить значительное время и ресурсы на поиск способов заставить агента ChatGPT поддаваться этим атакам. Чтобы защитить наших пользователей и помочь улучшить наши модели против этих атак: 1. Мы приоритизировали системы быстрого реагирования, чтобы помочь нам быстро идентифицировать блокирующие кампании атак, как только мы о них узнаем. 2. Мы также продолжаем активно инвестировать в безопасность, конфиденциальность и защиту - включая исследования для улучшения надежности наших моделей, мониторинга безопасности, контроля инфраструктционной безопасности и других методов, чтобы помочь предотвратить эти атаки с помощью многоуровневой защиты. 3. Мы разработали Atlas, чтобы предоставить вам инструменты для защиты. Мы добавили функцию, позволяющую агенту ChatGPT действовать от вашего имени, но без доступа к вашим учетным данным, называемую "режимом выхода из системы". Мы рекомендуем этот режим, когда вам не нужно предпринимать действия в ваших учетных записях. На сегодняшний день мы считаем, что "режим входа в систему" наиболее подходит для четко определенных действий на очень доверенных сайтах, где риски инъекции команд ниже. Попросить его добавить ингредиенты в корзину для покупок обычно безопаснее, чем широкая или неопределенная просьба, такая как "просмотреть мои электронные письма и предпринять необходимые действия". 4. Когда агент работает на чувствительных сайтах, мы также внедрили "Режим наблюдения", который предупреждает вас о чувствительном характере сайта и требует, чтобы вы имели активную вкладку, чтобы следить за работой агента. Агент приостановит свою работу, если вы уйдете с вкладки с конфиденциальной информацией. Это гарантирует, что вы остаетесь в курсе - и под контролем - того, какие действия выполняет агент. Со временем мы планируем добавить больше функций, защитных мер и средств безопасности, чтобы агент ChatGPT мог работать безопасно и надежно как в индивидуальных, так и в корпоративных рабочих процессах. Новые уровни интеллекта и возможностей требуют, чтобы технологии, общество и стратегии снижения рисков развивались вместе. И, как с компьютерными вирусами в начале 2000-х, мы считаем важным, чтобы все понимали ответственное использование, включая размышления о атаках инъекций команд, чтобы мы все могли научиться безопасно использовать эту технологию. Мы рады видеть, как агент ChatGPT будет усиливать ваши рабочие процессы в Atlas, и решительно настроены на нашу миссию по созданию самых безопасных, конфиденциальных и надежных технологий ИИ на благо всего человечества.

Топ

Рейтинг

Избранное