1/
В Arc мы задавались вопросом: что на самом деле означает, что система ИИ становится лучше со временем?
В результате мы начали исследовать, как агенты могут адаптироваться и учиться во время вывода.
Предварительная публикация:
Мы предлагаем переход от переобучения, ориентированного на модель, к обучению во время вывода, ориентированному на систему.
1/5
Хотите включить обучение в реальном времени для ваших агентов?
Наш Atlas SDK — это готовое решение, которое позволяет любому агенту учиться на опыте.
Убедитесь в результатах сами в этой демонстрации, а также узнайте, как начать.
Сегодня мы представляем систему вознаграждений ATLAS, нашу новую архитектуру, которая устанавливает новый SOTA на RewardBench V2 с точностью 93,7%.
Наша основная идея заключалась в том, чтобы рассматривать генерацию вознаграждений как проблему систем и маршрутизации.
Тред 👇
Полный технический блог: