Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Badanie @OpenAI rozumowania | Współtworzył nadludzkie pokerowe sztuczne inio Libratus/Pluribus, sztuczną inteligencję CICERO Diplomacy i modele rozumowania OpenAI o3 / o1 / 🍓
Poniżej znajduje się szczegółowa analiza, dlaczego samodzielna gra działa w dwuosobowych grach o sumie zerowej (2p0s) takich jak Go/Poker/Starcraft, ale jest znacznie trudniejsza do zastosowania w "rzeczywistych" dziedzinach. tl;dr: samodzielna gra zbiega do minimax w grach 2p0s, a minimax jest naprawdę przydatny w tych grach.
Każda skończona gra 2p0s ma równowagę minimax, która jest zasadniczo niepokonaną strategią w oczekiwaniu (zakładając, że gracze zmieniają strony). W papier-kamień-nożyczki, na przykład, minimax to 1/3 na każdą akcję.
Czy minimax to to, czego chcemy? Niekoniecznie. Jeśli grasz minimax w Papier-Kamień-Nożyczki, gdy strategie większości przeciwników to "zawsze rzucaj Kamień", to wyraźnie jesteś suboptymalny, nawet jeśli nie przegrywasz w oczekiwaniu. To ma szczególne znaczenie w grze takiej jak poker, ponieważ granie minimax oznacza, że możesz nie zarobić tyle pieniędzy na słabych graczach, ile mógłbyś, gdybyś maksymalnie ich wykorzystywał.
Ale gwarancja "nie przegrasz w oczekiwaniu" jest naprawdę miła do posiadania. A w grach takich jak Szachy i Go różnica między strategią minimax a strategią, która optymalnie wykorzystuje populację przeciwników, jest znikoma. Z tego powodu minimax jest zazwyczaj uważany za cel w dwuosobowej grze o sumie zerowej. Nawet w pokerze, konwencjonalna mądrość wśród najlepszych profesjonalistów to grać minimax (optymalnie z teorii gier), a następnie tylko odchodzić od tego, jeśli dostrzegasz wyraźne słabości u przeciwnika.
Dobrze zorganizowana samodzielna gra, nawet od podstaw, gwarantuje zbieżność do równowagi minimax w skończonych grach 2p0s. To niesamowite! Po prostu skalując pamięć i obliczenia, i bez danych od ludzi, możemy zbiegać do strategii, która jest niepokonana w oczekiwaniu.
A co z grami nie-2p0s? Niestety, czysta samodzielna gra, bez danych od ludzi, nie jest już gwarantowana, aby zbiegać do użytecznej strategii. Można to wyraźnie zobaczyć w Grze Ultimatum. Alice musi zaoferować Bobowi $0-100. Bob następnie akceptuje lub odrzuca. Jeśli Bob zaakceptuje, pieniądze są dzielone zgodnie z propozycją Alice. Jeśli Bob odrzuci, oboje otrzymują $0.
Równowaga (konkretnie, równowaga doskonała w podgrach) strategii polega na zaoferowaniu 1 grosza i na tym, że Bob akceptuje. Ale w rzeczywistym świecie ludzie nie są tacy racjonalni. Jeśli Alice spróbowałaby tej strategii z prawdziwymi ludźmi, skończyłaby z bardzo małą ilością pieniędzy. Samodzielna gra staje się odłączona od tego, co my jako ludzie uważamy za użyteczne.
Wielu ludzi zaproponowało gry takie jak "nauczyciel LLM proponuje trudne problemy matematyczne, a student LLM próbuje je rozwiązać", aby osiągnąć trening samodzielnej gry, ale napotyka to podobne problemy jak gra Ultimatum, gdzie równowaga jest odłączona od tego, co my jako ludzie uważamy za użyteczne.
Jaka powinna być nagroda dla nauczyciela w takiej grze? Jeśli to 2p0s, to nauczyciel jest nagradzany, jeśli student nie mógł rozwiązać problemu, więc nauczyciel będzie stawiał niemożliwe problemy. Dobrze, a co jeśli nagradzamy go za to, że student ma 50% wskaźnik sukcesu? Wtedy nauczyciel mógłby po prostu rzucić monetą i zapytać studenta, czy wylądowała na orzełku. Albo nauczyciel mógłby poprosić studenta o odszyfrowanie wiadomości poprzez wyczerpujące przeszukiwanie kluczy. Kształtowanie nagród w celu osiągnięcia zamierzonego zachowania staje się dużym wyzwaniem. To nie jest problem w grach 2p0s.
Wierzę w samodzielną grę. Zapewnia ona nieskończone źródło treningu i ciągle dopasowuje agenta z równorzędnym rówieśnikiem. Widzieliśmy również, że działa w niektórych złożonych ustawieniach nie-2p0s, takich jak Dyplomacja i Hanabi. Ale zastosowanie jej poza grami 2p0s jest znacznie trudniejsze niż w przypadku Go, Pokera, Dota i Starcraft.


Noam Brown21 paź, 23:13
Samodzielna gra działa tak dobrze w szachach, go i pokerze, ponieważ te gry są dwuosobowe i mają sumę zerową. To upraszcza wiele problemów. Prawdziwy świat jest bardziej skomplikowany, dlatego nie widzieliśmy jeszcze wielu sukcesów samodzielnej gry w LLM-ach.
Swoją drogą, @karpathy spisał się świetnie i w większości się z nim zgadzam!
273,4K
Samodzielna gra działa tak dobrze w szachach, go i pokerze, ponieważ te gry są dwuosobowe i mają sumę zerową. To upraszcza wiele problemów. Prawdziwy świat jest bardziej skomplikowany, dlatego nie widzieliśmy jeszcze wielu sukcesów samodzielnej gry w LLM-ach.
Swoją drogą, @karpathy spisał się świetnie i w większości się z nim zgadzam!

Dwarkesh Patel21 paź, 02:03
.@karpathy mówi, że LLM-y obecnie brakuje kulturowego akumulacji i samodzielnej gry, które wyniosły ludzi z sawanny:
Kultura: > „Dlaczego LLM nie może napisać książki dla innych LLM-ów? Dlaczego inne LLM-y nie mogą przeczytać książki tego LLM-a i być nią zainspirowane lub zszokowane?”
Samodzielna gra: > „To jest niezwykle potężne. Ewolucja ma wiele konkurencji napędzającej inteligencję i ewolucję. AlphaGo gra przeciwko sobie i w ten sposób uczy się, jak być naprawdę dobrym w Go. Nie ma odpowiednika samodzielnej gry w LLM-ach. Dlaczego LLM, na przykład, nie może stworzyć zestawu problemów, które inny LLM uczy się rozwiązywać? Wtedy LLM zawsze stara się rozwiązywać coraz trudniejsze problemy.”
Zapytałem Karpathy'ego, dlaczego LLM-y wciąż nie są w stanie budować kultury tak, jak robią to ludzie.
> „Głupsze modele niezwykle przypominają ucznia przedszkola. [Najmądrzejsze modele wciąż czują się jak] uczniowie szkoły podstawowej. Jakoś wciąż nie ukończyliśmy wystarczająco, aby [te modele] mogły przejąć kontrolę. Mój Claude Code lub Codex, wciąż czują się jak uczniowie na poziomie podstawowym. Wiem, że mogą zdawać egzaminy na poziomie doktoranckim, ale wciąż poznawczo czują się jak przedszkolak.”
> „Nie sądzę, że mogą tworzyć kulturę, ponieważ wciąż są dziećmi. To są dzieci-savanty. Mają doskonałą pamięć. Mogą przekonująco tworzyć wszelkiego rodzaju bałagan, który wygląda naprawdę dobrze. Ale wciąż myślę, że nie wiedzą, co robią. Nie mają naprawdę poznania we wszystkich tych małych checkboxach, które wciąż musimy zebrać.”
319,27K
.@Stanford kursy są wysokiej jakości, ale zasady są zdecydowanie przestarzałe. Słyszę o powszechnym, rażącym oszustwie, gdzie studenci wprowadzają pytania bezpośrednio do ChatGPT podczas egzaminów śródsemestralnych, ale profesorowie nie mogą nadzorować egzaminów z powodu kodeksu honorowego.
Profesorowie chcą zmienić zasady, ale biurokracja uniwersytecka musi przejść przez wieloletni proces, zanim będzie mogła je zmienić.

Zara Zhang14 paź, 23:06
Studenci z Harvardu i Stanfordu mówią mi, że ich profesorowie nie rozumieją AI, a kursy są przestarzałe.
Jeśli elitarne szkoły nie mogą nadążyć, wyścig o certyfikaty dobiegł końca. Samodzielna nauka to teraz jedyny sposób.
214,09K
Najlepsze
Ranking
Ulubione
