Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Recherche de raisonnement @OpenAI | Co-création des IA de poker surhumaines Libratus/Pluribus, de l’IA CICERO Diplomacy et des modèles de raisonnement OpenAI o3 / o1 🍓
Voici une analyse approfondie sur pourquoi le jeu autonome fonctionne pour les jeux à somme nulle à deux joueurs (2p0s) comme le Go, le Poker ou Starcraft, mais est beaucoup plus difficile à utiliser dans des domaines "réels". En résumé : le jeu autonome converge vers le minimax dans les jeux 2p0s, et le minimax est vraiment utile dans ces jeux.
Chaque jeu 2p0s fini a un équilibre minimax, qui est essentiellement une stratégie imbattable en espérance (en supposant que les joueurs alternent les côtés). Dans pierre-papier-ciseaux, par exemple, le minimax est de 1/3 pour chaque action.
Le minimax est-il ce que nous voulons ? Pas nécessairement. Si vous jouez minimax dans Pierre-Papier-Ciseaux alors que la plupart des stratégies des adversaires sont "toujours jouer Pierre", alors vous êtes clairement sous-optimal, même si vous ne perdez pas en espérance. Cela est particulièrement important dans un jeu comme le poker, car jouer minimax signifie que vous pourriez ne pas gagner autant d'argent contre des joueurs faibles que vous le pourriez si vous les exploitiez au maximum.
Mais la garantie de "vous ne perdrez pas en espérance" est vraiment agréable à avoir. Et dans des jeux comme les Échecs et le Go, la différence entre une stratégie minimax et une stratégie qui exploite de manière optimale la population d'adversaires est négligeable. Pour cette raison, le minimax est généralement considéré comme l'objectif d'un jeu à somme nulle à deux joueurs. Même dans le poker, la sagesse conventionnelle parmi les meilleurs pros est de jouer minimax (théorie du jeu optimale) et de ne dévier que si vous repérez des faiblesses claires chez l'adversaire.
Un jeu autonome solide, même depuis le début, est garanti de converger vers un équilibre minimax dans les jeux 2p0s finis. C'est incroyable ! En simplement augmentant la mémoire et le calcul, et sans données humaines, nous pouvons converger vers une stratégie qui est imbattable en espérance.
Qu'en est-il des jeux non-2p0s ? Malheureusement, le jeu autonome pur, sans données humaines, n'est plus garanti de converger vers une stratégie utile. Cela peut être clairement vu dans le jeu de l'Ultimatum. Alice doit offrir à Bob entre 0 et 100 $. Bob accepte ou rejette ensuite. Si Bob accepte, l'argent est partagé selon la proposition d'Alice. Si Bob rejette, les deux reçoivent 0 $.
La stratégie d'équilibre (spécifiquement, l'équilibre parfait de sous-jeu) est d'offrir 1 centime et que Bob accepte. Mais dans le monde réel, les gens ne sont pas si rationnels. Si Alice essayait cette stratégie avec de vraies personnes, elle finirait avec très peu d'argent. Le jeu autonome devient détaché de ce que nous, en tant qu'humains, trouvons utile.
Beaucoup de gens ont proposé des jeux comme "un enseignant LLM propose des problèmes mathématiques difficiles, et un étudiant LLM essaie de les résoudre" pour atteindre un entraînement par jeu autonome, mais cela rencontre des problèmes similaires à ceux du jeu de l'Ultimatum où l'équilibre est détaché de ce que nous, en tant qu'humains, trouvons utile.
Quelle devrait être la récompense pour l'enseignant dans un tel jeu ? Si c'est 2p0s, alors l'enseignant est récompensé si l'étudiant ne peut pas résoudre le problème, donc l'enseignant posera des problèmes impossibles. D'accord, que se passe-t-il si nous le récompensons pour que l'étudiant ait un taux de réussite de 50 % ? Alors l'enseignant pourrait simplement lancer une pièce et demander à l'étudiant si elle est tombée sur face. Ou l'enseignant pourrait demander à l'étudiant de déchiffrer un message via une recherche exhaustive de clé. La mise en forme des récompenses pour atteindre le comportement souhaité devient un défi majeur. Ce n'est pas un problème dans les jeux 2p0s.
Je crois en le jeu autonome. Il fournit une source infinie d'entraînement, et il associe continuellement un agent à un pair de compétence équivalente. Nous avons également vu cela fonctionner dans certains contextes non-2p0s complexes comme Diplomacy et Hanabi. Mais l'appliquer en dehors des jeux 2p0s est beaucoup plus difficile que cela ne l'était pour le Go, le Poker, Dota et Starcraft.


Noam Brown21 oct., 23:13
Le jeu autonome fonctionne si bien aux échecs, au go et au poker parce que ces jeux sont à deux joueurs à somme nulle. Cela simplifie beaucoup de problèmes. Le monde réel est plus compliqué, c'est pourquoi nous n'avons pas encore vu beaucoup de succès du jeu autonome dans les LLM.
Au fait, @karpathy a très bien fait et je suis principalement d'accord avec lui !
277,38K
Le jeu autonome fonctionne si bien aux échecs, au go et au poker parce que ces jeux sont à deux joueurs à somme nulle. Cela simplifie beaucoup de problèmes. Le monde réel est plus compliqué, c'est pourquoi nous n'avons pas encore vu beaucoup de succès du jeu autonome dans les LLM.
Au fait, @karpathy a très bien fait et je suis principalement d'accord avec lui !

Dwarkesh Patel21 oct., 02:03
.@karpathy dit que les LLM manquent actuellement de l'accumulation culturelle et du jeu autonome qui ont propulsé les humains hors de la savane :
Culture : > « Pourquoi un LLM ne peut-il pas écrire un livre pour les autres LLM ? Pourquoi d'autres LLM ne peuvent-ils pas lire le livre de ce LLM et en être inspirés, ou choqués ? »
Jeu autonome : > « C'est extrêmement puissant. L'évolution a beaucoup de compétition qui stimule l'intelligence et l'évolution. AlphaGo joue contre lui-même et c'est ainsi qu'il apprend à devenir vraiment bon au Go. Il n'y a pas d'équivalent du jeu autonome dans les LLM. Pourquoi un LLM, par exemple, ne peut-il pas créer un tas de problèmes qu'un autre LLM apprend à résoudre ? Alors le LLM essaie toujours de servir des problèmes de plus en plus difficiles. »
J'ai demandé à Karpathy pourquoi les LLM ne sont toujours pas capables de construire une culture comme le font les humains.
> « Les modèles les plus simples ressemblent remarquablement à un élève de maternelle. [Les modèles les plus intelligents semblent encore comme] des élèves de l'école élémentaire. D'une manière ou d'une autre, nous n'avons pas encore assez gradué pour que [ces modèles] puissent prendre le relais. Mon Claude Code ou Codex, ils semblent toujours comme cet élève de niveau élémentaire. Je sais qu'ils peuvent passer des quiz de doctorat, mais ils se sentent toujours cognitivement comme un élève de maternelle. »
> « Je ne pense pas qu'ils puissent créer de la culture parce qu'ils sont encore des enfants. Ce sont des enfants prodiges. Ils ont une mémoire parfaite. Ils peuvent créer de manière convaincante toutes sortes de choses qui semblent vraiment bonnes. Mais je pense toujours qu'ils ne savent pas vraiment ce qu'ils font. Ils n'ont pas vraiment la cognition à travers toutes ces petites cases que nous devons encore collecter. »
320,84K
.@Stanford les cours sont de haute qualité mais les politiques sont définitivement obsolètes. J'entends parler de tricheries flagrantes où les étudiants saisissent directement les questions dans ChatGPT pendant les examens de mi-session, mais les professeurs ne sont pas autorisés à surveiller les examens en raison du code d'honneur.
Les professeurs veulent changer la politique, mais la bureaucratie universitaire doit passer par un processus de plusieurs années avant de pouvoir changer.

Zara Zhang14 oct., 23:06
Les étudiants de Harvard et de Stanford me disent que leurs professeurs ne comprennent pas l'IA et que les cours sont obsolètes.
Si les écoles d'élite ne peuvent pas suivre, la course aux diplômes est terminée. L'auto-apprentissage est désormais le seul moyen.
214,12K
Meilleurs
Classement
Favoris
