Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Когда я работал в Google, мне повезло сотрудничать с некоторыми из самых ярких инженеров по машинному обучению (ML). Они работали над инженерией признаков. Выбирая факторы для управления моделью ML, их достижения могли генерировать десятки и сотни миллионов дополнительных доходов.
Представьте себе таблицу Excel с сотнями столбцов данных. Добавьте два столбца, умножьте два, разделите на другой и вычтите четвертый. Каждый из этих столбцов — это признак. Модели ML использовали признаки для предсказания лучшей рекламы для показа.
Это начиналось как ремесло, отражающее атмосферу той эпохи. Со временем мы механизировали это искусство в машину под названием AutoML, которая значительно ускоряет открытие правильных признаков.
Сегодня обучение с подкреплением (RL) находится в том же положении, что и инженерия признаков 15 лет назад.
Что такое RL? Это техника обучения ИИ для достижения целей.
Представьте себе смелого Roomba. Он заходит в грязную комнату.
Затем он должен составить план уборки и выполнить его. Создание плана — это шаг 1. Чтобы завершить план, как любой хороший работник, он будет вознаграждать себя, не перерывом на настольный футбол, а баллами.
Его функция вознаграждения может быть следующей: +0.1 за каждый новый квадратный фут, который убран, -5 за столкновение со стеной и +100 за возвращение на док с полным контейнером для пыли. Поведение неутомимого пылесоса формируется этой простой арифметикой. (Примечание: я здесь несколько упрощаю.)
Сегодня ИИ может создать план, но пока не способен разработать функции вознаграждения. Это делают люди, так же как мы разрабатывали признаки 15 лет назад.
Увидим ли мы AutoRL? Не скоро. Техники для RL все еще обсуждаются. Андрей Карпаты подчеркнул это обсуждение в недавнем подкасте.
Эта текущая волна улучшения ИИ может зависеть от успеха RL. Сегодня это в значительной степени ремесло. Потенциал автоматизировать это — частично или полностью — изменит способ, которым мы создаем агентные системы.

Топ
Рейтинг
Избранное