Коли я працював у Google, мені пощастило співпрацювати з одними з найяскравіших інженерів машинного навчання (ML). Вони працювали над художнім інжинірингом. Вибираючи фактори, які керуватимуть моделлю машинного навчання, їхні досягнення можуть принести від десятків до сотень мільйонів додаткових доходів. Уявіть собі електронну таблицю Excel із сотнями стовпців даних. Додайте два стовпці, помножте два, поділіть на інший і відніміть четверту. У кожного з них є особливість. Моделі машинного навчання використовували функції для прогнозування найкращої реклами для показу. Він починався як ремесло, що відображало вібрації епохи. З часом ми механізували це мистецтво в машину під назвою AutoML, яка значно прискорює виявлення потрібних функцій. Сьогодні навчання з підкріпленням (RL) знаходиться в тому ж місці, що і feature engineering 15 років тому. Що таке РЛ? Це техніка навчання ШІ досягати цілей. Розглянемо відважного Roomba. Вона тисне в брудне приміщення. Потім він повинен скласти план прибирання і виконати його. Створення плану – крок 1. Щоб виконати задумане, як і будь-який хороший працівник, він винагородить себе не перервою в настільний футбол, а деякими балами. Його функція винагороди може бути такою: +0,1 за кожен новий квадратний фут очищення, -5 за наїзд на стіну та +100 за повернення на док-станцію з повним сміттєвим баком. Поведінка невтомного пилососа формується цією простою арифметикою. (NB : Я тут трохи спрощую.) Сьогодні штучний інтелект може створити план, але ще не в змозі розробити функції винагороди. Люди так і роблять, подібно до того, як ми розробили фічі 15 років тому. Чи побачимо ми AutoRL? Ненадовго. Методики РЛ все ще є предметом дискусій. Андрій Карпати висвітлив цю дискусію у нещодавньому подкасті. Ця поточна хвиля вдосконалення штучного інтелекту може залежати від успіху RL. Сьогодні це в значній мірі ремесло. Потенціал для його автоматизації — до певної міри або повністю — змінить спосіб, яким ми будуємо агентні системи.