Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Meneliti penalaran @OpenAI | AI poker manusia super Libratus/Pluribus yang dibuat bersama, CICERO Diplomacy AI, dan model penalaran OpenAI o3 / o1 / 🍓
Di bawah ini adalah penyelaman mendalam tentang mengapa permainan mandiri berfungsi untuk permainan zero-sum (2p0s) dua pemain seperti Go/Poker/Starcraft tetapi jauh lebih sulit digunakan di domain "dunia nyata". Tl; DR: Permainan mandiri menyatu ke Minimax dalam game 2P0S, dan Minimax sangat berguna dalam game tersebut.
Setiap permainan 2p0s terbatas memiliki keseimbangan minimax, yang pada dasarnya merupakan strategi yang tak terkalahkan dalam harapan (dengan asumsi pemain bergantian sisi). Dalam gunting kertas batu, misalnya, minimax adalah 1/3 pada setiap tindakan.
Apakah minimax yang kita inginkan? Belum tentu. Jika Anda bermain minimax di Rock Paper Scissors ketika sebagian besar strategi lawan adalah "selalu melempar Batu" maka Anda jelas tidak optimal, meskipun Anda tidak kalah dalam harapan. Ini sangat penting dalam permainan seperti poker karena bermain minimax berarti Anda mungkin tidak menghasilkan uang sebanyak yang Anda bisa dari pemain lemah jika Anda mengeksploitasi mereka secara maksimal.
Tetapi jaminan "Anda tidak akan kalah dalam harapan" sangat bagus untuk dimiliki. Dan dalam game seperti Chess and Go, perbedaan antara strategi minimax dan strategi yang mengeksploitasi populasi lawan secara optimal dapat diabaikan. Untuk alasan itu, minimax biasanya dianggap sebagai tujuan untuk permainan zero-sum dua pemain. Bahkan dalam poker, kebijaksanaan konvensional di antara para profesional top adalah bermain minimax (teori permainan optimal) dan kemudian hanya menyimpang jika Anda melihat kelemahan yang jelas pada lawan.
Permainan mandiri yang suara, bahkan dari awal, dijamin akan menyatu ke keseimbangan minimax dalam game 2p0-an yang terbatas. Itu luar biasa! Hanya dengan menskalakan memori dan komputasi, dan tanpa data manusia, kita dapat menyatu ke strategi yang tidak ada duanya dalam harapan.
Bagaimana dengan game non-2p0s? Sayangnya, permainan mandiri murni, tanpa data manusia, tidak lagi dijamin akan menyatu ke strategi yang berguna. Hal ini dapat dilihat dengan jelas dalam Ultimatum Game. Alice harus menawarkan Bob $0-100. Bob kemudian menerima atau menolak. Jika Bob menerima, uang itu dibagi sesuai dengan proposal Alice. Jika Bob menolak, keduanya menerima $0.
Strategi keseimbangan (khususnya, keseimbangan sempurna subgame) adalah menawarkan 1 sen dan untuk diterima oleh Bob. Tetapi di dunia nyata, orang tidak begitu rasional. Jika Alice mencoba strategi itu dengan manusia sungguhan, dia akan berakhir dengan sedikit uang. Permainan diri menjadi tidak terikat dari apa yang kita sebagai manusia anggap berguna.
Banyak orang telah mengusulkan permainan seperti "seorang guru LLM mengusulkan masalah matematika yang sulit, dan seorang siswa LLM mencoba menyelesaikannya" untuk mencapai pelatihan bermain mandiri, tetapi ini mengalami masalah yang sama dengan permainan Ultimatum di mana keseimbangan tidak terikat dari apa yang kita sebagai manusia anggap berguna.
Apa hadiah yang seharusnya diberikan kepada guru dalam permainan seperti itu? Jika 2p0s maka guru diberi imbalan jika siswa tidak dapat menyelesaikan masalah, sehingga guru akan menimbulkan masalah yang mustahil. Oke, bagaimana jika kita menghadiahinya untuk siswa yang memiliki tingkat keberhasilan 50%? Kemudian guru bisa melempar koin dan bertanya kepada siswa apakah itu mendaratkan Kepala. Atau guru dapat meminta siswa untuk mendekripsi pesan melalui pencarian kunci yang menyeluruh. Pembentukan penghargaan untuk mencapai perilaku yang diinginkan menjadi tantangan besar. Ini bukan masalah dalam game 2p0s.
Saya percaya pada permainan diri. Ini memberikan sumber pelatihan yang tak terbatas, dan terus menerus mencocokkan agen dengan rekan yang sama terampilnya. Kami juga telah melihatnya bekerja di beberapa pengaturan non-2p0 yang kompleks seperti Diplomasi dan Hanabi. Tetapi menerapkannya di luar permainan 2p0s jauh lebih sulit daripada untuk Go, Poker, Dota, dan Starcraft.


Noam Brown21 Okt, 23.13
Permainan mandiri bekerja sangat baik dalam catur, pergi, dan poker karena permainan tersebut adalah zero-sum dua pemain. Itu menyederhanakan banyak masalah. Dunia nyata lebih berantakan, itulah sebabnya kami belum melihat banyak kesuksesan dari permainan mandiri di LLM.
Btw @karpathy melakukannya dengan baik dan saya sebagian besar setuju dengannya!
189,86K
Permainan mandiri bekerja sangat baik dalam catur, pergi, dan poker karena permainan tersebut adalah zero-sum dua pemain. Itu menyederhanakan banyak masalah. Dunia nyata lebih berantakan, itulah sebabnya kami belum melihat banyak kesuksesan dari permainan mandiri di LLM.
Btw @karpathy melakukannya dengan baik dan saya sebagian besar setuju dengannya!

Dwarkesh Patel21 Okt, 02.03
.@karpathy mengatakan bahwa LLM saat ini tidak memiliki akumulasi budaya dan permainan diri yang mendorong manusia keluar dari sabana:
Budaya: > "Mengapa LLM tidak bisa menulis buku untuk LLM lainnya? Mengapa LLM lain tidak bisa membaca buku LLM ini dan terinspirasi olehnya, atau terkejut olehnya?"
Permainan mandiri: > "Ini sangat kuat. Evolusi memiliki banyak persaingan yang mendorong kecerdasan dan evolusi. AlphaGo bermain melawan dirinya sendiri dan begitulah cara ia belajar untuk menjadi benar-benar pandai di Go. Tidak ada yang setara dengan permainan diri sendiri dalam LLM. Mengapa LLM, misalnya, tidak dapat menciptakan banyak masalah yang LLM lain sedang belajar untuk dipecahkan? Kemudian LLM selalu berusaha melayani masalah yang semakin sulit."
Saya bertanya kepada Karpathy mengapa LLM masih belum mampu membangun budaya seperti yang dilakukan manusia.
> "Model yang lebih bodoh sangat mirip dengan siswa taman kanak-kanak. [Model terpintar masih terasa seperti] siswa sekolah dasar. Entah bagaimana, kami masih belum cukup lulus di mana [model-model ini] dapat mengambil alih. Kode Claude atau Codex saya, mereka masih merasa seperti siswa kelas dasar ini. Saya tahu bahwa mereka dapat mengikuti kuis PhD, tetapi mereka masih merasa seperti taman kanak-kanak."
> "Saya tidak berpikir mereka bisa menciptakan budaya karena mereka masih anak-anak. Mereka adalah anak-anak yang cerdas. Mereka memiliki ingatan yang sempurna. Mereka dapat dengan meyakinkan membuat semua jenis slop yang terlihat sangat bagus. Tapi saya masih berpikir mereka tidak benar-benar tahu apa yang mereka lakukan. Mereka tidak benar-benar memiliki kognisi di semua kotak centang kecil yang masih harus kami kumpulkan."
277,34K
.@Stanford kursus berkualitas tinggi tetapi kebijakannya pasti ketinggalan zaman. Saya mendengar kecurangan terang-terangan yang merajalela terjadi di mana siswa memasukkan pertanyaan langsung ke ChatGPT selama semester paruh waktu, tetapi profesor tidak diizinkan untuk mengawasi ujian karena kode kehormatan.
Para profesor ingin mengubah kebijakan, tetapi birokrasi universitas harus melalui proses multi-tahun sebelum dapat berubah.

Zara Zhang14 Okt, 23.06
Mahasiswa Harvard dan Stanford memberi tahu saya bahwa profesor mereka tidak memahami AI dan kursusnya sudah ketinggalan zaman.
Jika sekolah elit tidak dapat mengikuti, perlombaan senjata kredensial telah berakhir. Belajar mandiri adalah satu-satunya cara sekarang.
195,55K
Teratas
Peringkat
Favorit