Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Noam Brown

Дослідження міркувань @OpenAI | Співавтор надлюдських покерних AI Libratus/Pluribus, CICERO Diplomacy AI та OpenAI o3 / o1 / 🍓 міркувань

Нижче наведено глибоке занурення в те, чому самостійна гра працює в іграх з нульовою сумою (2p0) для двох гравців, таких як Go/Poker/Starcraft, але її набагато складніше використовувати в доменах «реального світу». тл; Д.Р.: Самостійна гра сходиться з Minimax в іграх 2P0s, і Minimax дійсно корисний в цих іграх. Кожна скінченна гра 2p0s має мінімаксну рівновагу, що, по суті, є непереможною стратегією в очікуванні (за умови, що гравці чергують сторони). У ножицях для кам'яного паперу, наприклад, мінімакс становить 1/3 на кожну дію. Мінімакс – це те, чого ми хочемо? Не обов'язково. Якщо ви граєте в мінімакс в Rock Paper Scissors, коли стратегії більшості опонентів «завжди кидати камінь», то ви явно неоптимальні, навіть якщо ви не програєте в очікуванні. Це особливо важливо в такій грі, як покер, тому що гра в мінімакс означає, що ви, можливо, не заробите стільки грошей на слабких гравцях, скільки могли б, якби максимально їх використовували. А ось гарантію «ви не прогадаєте в очікуванні» дійсно приємно мати. А в таких іграх, як шахи і го, різниця між мінімакс-стратегією і стратегією, яка оптимально експлуатує популяцію опонентів, незначна. З цієї причини мінімакс зазвичай вважається метою для гри з нульовою сумою для двох гравців. Навіть у покері загальноприйнята думка серед топ-професіоналів полягає в тому, щоб грати в мінімакс (оптимальна теорія гри), а потім відхилятися лише в тому випадку, якщо ви помічаєте явні слабкі місця в опонента. Звукова самостійна гра, навіть з нуля, гарантовано зійде до мінімаксної рівноваги в скінченних іграх 2p0s. Це дивовижно! Просто масштабуючи пам'ять і обчислення, не маючи людських даних, ми можемо прийти до стратегії, яка є неперевершеною в очікуванні. А як щодо ігор без 2p0s? На жаль, чиста гра в себе, без людських даних, більше не гарантовано зводиться до корисної стратегії. Це добре видно на прикладі «Ультиматумної гри». Аліса повинна запропонувати Бобу 0-100 доларів. Тоді Боб приймає або відхиляє. Якщо Боб погоджується, гроші діляться відповідно до пропозиції Аліси. Якщо Боб відхиляє, обидва отримують по 0 доларів. Стратегія рівноваги (точніше, ідеальної рівноваги в підгрі) полягає в тому, щоб запропонувати 1 пенні, а Боб погодився. Але в реальному світі люди не такі раціональні. Якби Аліса спробувала цю стратегію з реальними людьми, вона б отримала дуже мало грошей. Самостійна гра стає відірваною від того, що ми, як люди, вважаємо корисним. Багато людей пропонували ігри на кшталт «вчитель LLM пропонує складні математичні задачі, а учень LLM намагається їх вирішити», щоб досягти тренування самостійної гри, але це стикається з тими ж проблемами, що й гра Ultimatum, де рівновага не пов'язана з тим, що ми, як люди, вважаємо корисним. Якою має бути нагорода для вчителя в такій грі? Якщо це 2p0, то вчитель винагороджується, якщо учень не зміг вирішити проблему, тому вчитель створить неможливі проблеми. Гаразд, а якщо ми винагородимо його за те, що учень має 50% успішності? Тоді вчитель може просто підкинути монетку і запитати у учня, чи приземлилася вона орлом. Або вчитель може попросити учня розшифрувати повідомлення за допомогою вичерпного пошуку ключів. Формування винагороди для досягнення запланованої поведінки стає серйозною проблемою. Це не проблема в іграх 2p0s. Я вірю в гру в себе. Він є нескінченним джерелом тренувань і постійно поєднує агента з не менш кваліфікованим однолітком. Ми також бачили, як він працює в деяких складних налаштуваннях, відмінних від 2p0, таких як Diplomacy та Hanabi. Але застосувати його поза іграми 2p0s набагато складніше, ніж це було для Го, Покеру, Dota та Starcraft.

Самостійна гра так добре працює в шахах, го та покері, тому що ці ігри розраховані на двох гравців з нульовою сумою. Це спрощує багато проблем. Реальний світ більш заплутаний, тому ми ще не бачили багато успіхів від самостійної гри в LLM. До речі, @karpathy чудово впорався, і я в основному з ним згоден!

.@karpathy каже, що LLM в даний час не вистачає культурного накопичення і самогри, які виштовхнули людей з савани: Культура: > «Чому LLM не може написати книгу для інших LLM? Чому інші LLM не можуть прочитати цю книгу і надихнутися нею, або бути шокованими нею?» Самостійна гра: > «Це надзвичайно потужно. Еволюція має багато конкуренції, яка рухає інтелект та еволюцію. AlphaGo грає проти самої себе, і саме так вона вчиться бути дійсно хорошою в Го. У LLM немає еквівалента самостійної гри. Чому LLM, наприклад, не може створити купу проблем, які інший LLM вчиться вирішувати? Тоді LLM завжди намагається обслуговувати все більш і більш складні проблеми». Я запитав у «Карпат», чому ЛЛМ досі не здатні будувати культуру так, як це роблять люди. > «Більш тупі моделі дивно нагадують вихованця дитячого садка. [Найрозумніші моделі все ще відчувають себе] учнями початкових класів. Якимось чином ми все ще недостатньо закінчили там, де [ці моделі] можуть взяти гору. Мій Клод Код або Кодекс, вони все ще відчувають себе цим учнем початкових класів. Я знаю, що вони можуть проходити тести на ступінь доктора філософії, але вони все одно когнітивно відчувають себе як у дитячому садку». > «Я не думаю, що вони можуть створювати культуру, тому що вони ще діти. Вони розумні діти. У них прекрасна пам'ять. Вони можуть переконливо створювати всілякі неохайності, які виглядають дійсно добре. Але я все ще думаю, що вони насправді не знають, що роблять. Вони насправді не мають розуміння всіх цих маленьких пунктів, які нам ще потрібно зібрати».

Найкращі

Рейтинг

Вибране