Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Päättelyn @OpenAI tutkiminen | Yhdessä luotu Libratus/Pluribus yli-inhimillinen pokeritekoäly, CICERO Diplomacy AI ja OpenAI o3 / o1 / 🍓 päättelymallit
Alla on syväsukellus siihen, miksi itsepelaaminen toimii kahden pelaajan nollasummapeleissä (2p0s), kuten Go/Poker/Starcraft, mutta sitä on paljon vaikeampi käyttää "tosielämän" alueilla. tallium; DR: Self Play yhtyy MiniMaxiin 2P0S-peleissä, ja MiniMax on todella hyödyllinen näissä peleissä.
Jokaisessa rajallisessa 2p0s-pelissä on minimax-tasapaino, joka on pohjimmiltaan lyömätön strategia odotuksissa (olettaen, että pelaajat vaihtavat puolta). Esimerkiksi kivipaperisaksissa minimax on 1/3 jokaisesta toiminnosta.
Onko minimax sitä, mitä haluamme? Ei välttämättä. Jos pelaat minimaxia Rock Paper Scissorsissa, kun useimpien vastustajien strategiat ovat "heitä aina kiveä", olet selvästi epäoptimaalinen, vaikka et häviäkään odotuksissa. Tällä on merkitystä erityisesti pokerin kaltaisessa pelissä, koska minimaxin pelaaminen tarkoittaa, että et ehkä ansaitse niin paljon rahaa heikoilla pelaajilla kuin voisit, jos käyttäisit heitä maksimaalisesti hyväksesi.
Mutta takuu "et menetä odotuksissa" on todella mukava. Ja peleissä, kuten Chess and Go, ero minimax-strategian ja vastustajapopulaatiota optimaalisesti hyödyntävän strategian välillä on mitätön. Tästä syystä minimaxia pidetään tyypillisesti kahden pelaajan nollasummapelin tavoitteena. Jopa pokerissa huippuammattilaisten perinteinen viisaus on pelata minimaxia (peliteoriaoptimaalinen) ja poiketa sitten vain, jos huomaat vastustajassa selkeitä heikkouksia.
Ääni itsepeli, jopa tyhjästä, konvergoituu taatusti minimax-tasapainoon rajallisissa 2p0s-peleissä. Se on hämmästyttävää! Yksinkertaisesti skaalaamalla muistia ja laskentaa ilman ihmistietoja voimme lähentyä strategiaan, joka on lyömätön odotuksissa.
Entä muut kuin 2p0s-pelit? Valitettavasti puhdas itseleikki ilman ihmistietoja ei enää taata, että se lähentyy hyödylliseksi strategiaksi. Tämä näkyy selvästi Ultimatum-pelissä. Alicen on tarjottava Bobille 0-100 dollaria. Sitten Bob hyväksyy tai hylkää. Jos Bob suostuu, rahat jaetaan Alicen ehdotuksen mukaan. Jos Bob hylkää, molemmat saavat 0 dollaria.
Tasapainostrategia (erityisesti alipelin täydellinen tasapaino) on tarjota 1 penni ja Bobin hyväksyä. Mutta todellisessa maailmassa ihmiset eivät ole niin rationaalisia. Jos Liisa kokeilisi tätä strategiaa oikeiden ihmisten kanssa, hän saisi hyvin vähän rahaa. Itseleikki irtautuu siitä, mitä me ihmiset pidämme hyödyllisenä.
Monet ihmiset ovat ehdottaneet pelejä, kuten "LLM-opettaja ehdottaa vaikeita matemaattisia ongelmia ja opiskelija LLM yrittää ratkaista niitä" saavuttaakseen itsepeliharjoittelun, mutta tämä törmää samanlaisiin ongelmiin kuin Ultimatum-peli, jossa tasapaino on irrallaan siitä, mitä me ihmiset pidämme hyödyllisenä.
Mikä pitäisi olla opettajan palkinto tällaisessa pelissä? Jos se on 2p0s, opettaja palkitaan, jos oppilas ei pystynyt ratkaisemaan ongelmaa, joten opettaja asettaa mahdottomia ongelmia. Okei, entä jos palkitsisimme sen siitä, että opiskelijan onnistumisprosentti on 50 prosenttia? Sitten opettaja saattoi vain heittää kolikkoa ja kysyä oppilaalta, laskeutuiko se Headsiin. Tai opettaja voi pyytää oppilasta purkamaan viestin salauksen tyhjentävällä avainhaulla. Palkitsemisen muotoilusta aiotun käyttäytymisen saavuttamiseksi tulee suuri haaste. Tämä ei ole ongelma 2p0s-peleissä.
Uskon itseleikkeihin. Se tarjoaa loputtoman koulutuslähteen, ja se yhdistää jatkuvasti agentin yhtä taitavaan vertaiseen. Olemme myös nähneet sen toimivan joissakin monimutkaisissa ei-2p0s-ympäristöissä, kuten Diplomacyssa ja Hanabissa. Mutta sen soveltaminen 2p0s-pelien ulkopuolella on paljon vaikeampaa kuin Gossa, Pokerissa, Dotassa ja Starcraftissa.


Noam Brown21.10. klo 23.13
Itsepeli toimii niin hyvin shakissa, gossa ja pokerissa, koska nämä pelit ovat kahden pelaajan nollasummapelejä. Se yksinkertaistaa monia ongelmia. Todellinen maailma on sotkuisempi, minkä vuoksi emme ole vielä nähneet monia menestyksiä itsepelaamisesta LLM:issä.
Muuten, @karpathy pärjäsi hyvin ja olen enimmäkseen samaa mieltä hänen kanssaan!
277,36K
Itsepeli toimii niin hyvin shakissa, gossa ja pokerissa, koska nämä pelit ovat kahden pelaajan nollasummapelejä. Se yksinkertaistaa monia ongelmia. Todellinen maailma on sotkuisempi, minkä vuoksi emme ole vielä nähneet monia menestyksiä itsepelaamisesta LLM:issä.
Muuten, @karpathy pärjäsi hyvin ja olen enimmäkseen samaa mieltä hänen kanssaan!

Dwarkesh Patel21.10. klo 02.03
.@karpathy sanoo, että LLM:istä puuttuu tällä hetkellä kulttuurinen kasautuminen ja itseleikki, joka ajoi ihmiset pois savannilta:
Kulttuuri: > "Miksi LLM ei voi kirjoittaa kirjaa muille LLM:ille? Miksi muut LLM:t eivät voi lukea tämän LLM:n kirjaa ja inspiroitua siitä tai järkyttyä siitä?"
Itseleikki: > "Se on äärimmäisen voimakas. Evoluutiolla on paljon kilpailua, joka ohjaa älykkyyttä ja evoluutiota. AlphaGo pelaa itseään vastaan ja näin se oppii tulemaan todella hyväksi Gossa. LLM-peleissä ei ole vastinetta itsepelaamiselle. Miksi esimerkiksi LLM ei voi luoda joukkoa ongelmia, joita toinen LLM oppii ratkaisemaan? Sitten LLM yrittää aina palvella yhä vaikeampia ongelmia."
Kysyin Karpathylta, miksi LLM:t eivät vieläkään pysty rakentamaan kulttuuria samalla tavalla kuin ihmiset.
> "Tyhmemmät mallit muistuttavat huomattavasti päiväkotioppilasta. [Älykkäimmät mallit tuntuvat edelleen] kuitenkin peruskoululaisilta. Jotenkin emme ole vieläkään valmistuneet tarpeeksi, missä [nämä mallit] voivat ottaa vallan. Minun Claude-koodini tai Codexini, he tuntuvat edelleen ala-asteen oppilailta. Tiedän, että he voivat osallistua tohtorintutkinnon tietokilpailuihin, mutta he tuntevat silti kognitiivisesti olevansa lastentarha."
> "En usko, että he voivat luoda kulttuuria, koska he ovat vielä lapsia. He ovat viisaita lapsia. Heillä on täydellinen muisti. Ne voivat vakuuttavasti luoda kaikenlaista kaltevuutta, joka näyttää todella hyvältä. Mutta uskon silti, että he eivät oikeastaan tiedä, mitä tekevät. Heillä ei todellakaan ole kognitiota kaikissa näissä pienissä valintaruuduissa, jotka meidän on vielä kerättävä."
320,84K
.@Stanford kurssit ovat laadukkaita, mutta käytännöt ovat ehdottomasti vanhentuneita. Olen kuullut rehottavasta räikeästä huijaamisesta, jossa opiskelijat kytkevät kysymykset suoraan ChatGPT:hen välilukukausien aikana, mutta professorit eivät saa valvoa kokeita kunniakoodin vuoksi.
Professorit haluavat muuttaa politiikkaa, mutta yliopistobyrokratian on käytävä läpi monivuotinen prosessi ennen kuin se voi muuttua.

Zara Zhang14.10. klo 23.06
Harvardin ja Stanfordin opiskelijat kertovat minulle, että heidän professorinsa eivät ymmärrä tekoälyä ja kurssit ovat vanhentuneita.
Jos eliittikoulut eivät pysy perässä, pätevyyksien kilpavarustelu on ohi. Itseoppiminen on nyt ainoa tapa.
214,11K
Johtavat
Rankkaus
Suosikit
