Toivon, että kaikki nämä twiitit olisivat julkisia Internet-blogeja - tällä alustalla on niin paljon tietämystä ja ammatillista kokemusta ja elon lukitsi sen kaiken - todella masentavaa, mitä internetistä on tullut/on tulossa, jos ajattelet sitä (IMO)
Noam Brown
Noam Brown22.10. klo 02.05
Alla on syväsukellus siihen, miksi itsepelaaminen toimii kahden pelaajan nollasummapeleissä (2p0s), kuten Go/Poker/Starcraft, mutta sitä on paljon vaikeampi käyttää "tosielämän" alueilla. tallium; DR: Self Play yhtyy MiniMaxiin 2P0S-peleissä, ja MiniMax on todella hyödyllinen näissä peleissä. Jokaisessa rajallisessa 2p0s-pelissä on minimax-tasapaino, joka on pohjimmiltaan lyömätön strategia odotuksissa (olettaen, että pelaajat vaihtavat puolta). Esimerkiksi kivipaperisaksissa minimax on 1/3 jokaisesta toiminnosta. Onko minimax sitä, mitä haluamme? Ei välttämättä. Jos pelaat minimaxia Rock Paper Scissorsissa, kun useimpien vastustajien strategiat ovat "heitä aina kiveä", olet selvästi epäoptimaalinen, vaikka et häviäkään odotuksissa. Tällä on merkitystä erityisesti pokerin kaltaisessa pelissä, koska minimaxin pelaaminen tarkoittaa, että et ehkä ansaitse niin paljon rahaa heikoilla pelaajilla kuin voisit, jos käyttäisit heitä maksimaalisesti hyväksesi. Mutta takuu "et menetä odotuksissa" on todella mukava. Ja peleissä, kuten Chess and Go, ero minimax-strategian ja vastustajapopulaatiota optimaalisesti hyödyntävän strategian välillä on mitätön. Tästä syystä minimaxia pidetään tyypillisesti kahden pelaajan nollasummapelin tavoitteena. Jopa pokerissa huippuammattilaisten perinteinen viisaus on pelata minimaxia (peliteoriaoptimaalinen) ja poiketa sitten vain, jos huomaat vastustajassa selkeitä heikkouksia. Ääni itsepeli, jopa tyhjästä, konvergoituu taatusti minimax-tasapainoon rajallisissa 2p0s-peleissä. Se on hämmästyttävää! Yksinkertaisesti skaalaamalla muistia ja laskentaa ilman ihmistietoja voimme lähentyä strategiaan, joka on lyömätön odotuksissa. Entä muut kuin 2p0s-pelit? Valitettavasti puhdas itseleikki ilman ihmistietoja ei enää taata, että se lähentyy hyödylliseksi strategiaksi. Tämä näkyy selvästi Ultimatum-pelissä. Alicen on tarjottava Bobille 0-100 dollaria. Sitten Bob hyväksyy tai hylkää. Jos Bob suostuu, rahat jaetaan Alicen ehdotuksen mukaan. Jos Bob hylkää, molemmat saavat 0 dollaria. Tasapainostrategia (erityisesti alipelin täydellinen tasapaino) on tarjota 1 penni ja Bobin hyväksyä. Mutta todellisessa maailmassa ihmiset eivät ole niin rationaalisia. Jos Liisa kokeilisi tätä strategiaa oikeiden ihmisten kanssa, hän saisi hyvin vähän rahaa. Itseleikki irtautuu siitä, mitä me ihmiset pidämme hyödyllisenä. Monet ihmiset ovat ehdottaneet pelejä, kuten "LLM-opettaja ehdottaa vaikeita matemaattisia ongelmia ja opiskelija LLM yrittää ratkaista niitä" saavuttaakseen itsepeliharjoittelun, mutta tämä törmää samanlaisiin ongelmiin kuin Ultimatum-peli, jossa tasapaino on irrallaan siitä, mitä me ihmiset pidämme hyödyllisenä. Mikä pitäisi olla opettajan palkinto tällaisessa pelissä? Jos se on 2p0s, opettaja palkitaan, jos oppilas ei pystynyt ratkaisemaan ongelmaa, joten opettaja asettaa mahdottomia ongelmia. Okei, entä jos palkitsisimme sen siitä, että opiskelijan onnistumisprosentti on 50 prosenttia? Sitten opettaja saattoi vain heittää kolikkoa ja kysyä oppilaalta, laskeutuiko se Headsiin. Tai opettaja voi pyytää oppilasta purkamaan viestin salauksen tyhjentävällä avainhaulla. Palkitsemisen muotoilusta aiotun käyttäytymisen saavuttamiseksi tulee suuri haaste. Tämä ei ole ongelma 2p0s-peleissä. Uskon itseleikkeihin. Se tarjoaa loputtoman koulutuslähteen, ja se yhdistää jatkuvasti agentin yhtä taitavaan vertaiseen. Olemme myös nähneet sen toimivan joissakin monimutkaisissa ei-2p0s-ympäristöissä, kuten Diplomacyssa ja Hanabissa. Mutta sen soveltaminen 2p0s-pelien ulkopuolella on paljon vaikeampaa kuin Gossa, Pokerissa, Dotassa ja Starcraftissa.
@moskstraum21745 Ja haastaa oikeuteen kaikki, jotka käyttävät Twitter-tietoja missä tahansa
47,22K