Мы случайно создали саморазвивающиеся системы ИИ. Эта статья из Оксфордского университета это доказывает. Большинство людей предполагают, что улучшения моделей происходят из-за более крупных архитектур или тщательно разработанных пайплайнов обучения с подкреплением. Эта работа показывает нечто более тонкое и более тревожное. Если вы развернете модель, позволите пользователям взаимодействовать с ней, отфильтруете неудачи и дообучите только на успешных примерах, модель начинает самостоятельно улучшать свои способности к планированию. Без явных вознаграждений, ручного обучения и внешнего планировщика. Просто итерация. Авторы называют это итеративным развертыванием и тестируют его в контролируемых планировочных средах, таких как Blocksworld, Rovers и Sokoban. Настройка проста: 1. Разверните LLM для планировочных задач 2. Оставьте только те планы, которые действительно работают 3. Дообучите следующую версию на этих действительных примерах Повторите После всего лишь пяти поколений производительность планирования более чем удваивается во всех областях. В некоторых случаях она улучшается в 4-5 раз. Еще более интересно, что более поздние поколения обнаруживают гораздо более длинные планы, чем базовая модель, демонстрируя реальную обобщаемость вне распределения, а не просто трюки форматирования или соблюдение подсказок. Вот ключевое понимание. Статья доказывает, что этот процесс математически эквивалентен обучению с подкреплением с бинарным сигналом вознаграждения. Но функция вознаграждения никогда не записывается. ...