Nouveau billet de blog sur l’asymétrie de la vérification et la « loi du vérificateur » : L’asymétrie de vérification – l’idée que certaines tâches sont beaucoup plus faciles à vérifier qu’à résoudre – devient une idée importante depuis que nous avons l’apprentissage par renforcement qui fonctionne enfin en général. D’excellents exemples d’asymétrie de vérification sont des choses comme les puzzles sudoku, l’écriture du code pour un site Web comme Instagram et les problèmes BrowseComp (il faut ~100 sites Web pour trouver la réponse, mais facile à vérifier une fois que vous avez la réponse). D’autres tâches ont une quasi-symétrie de vérification, comme la somme de deux nombres à 900 chiffres ou certains scripts de traitement de données. Pourtant, il est beaucoup plus facile de proposer des solutions réalisables pour d’autres tâches que de les vérifier (par exemple, vérifier les faits d’un long essai ou énoncer un nouveau régime alimentaire comme « ne mangez que du bison »). Une chose importante à comprendre à propos de l’asymétrie de vérification est que vous pouvez améliorer l’asymétrie en effectuant un travail au préalable. Par exemple, si vous avez le corrigé d’un problème mathématique ou si vous avez des cas de test pour un problème Leetcode. Cela augmente considérablement l’ensemble des problèmes avec l’asymétrie de vérification souhaitable. La « loi du vérificateur » stipule que la facilité d’entraînement de l’IA à résoudre une tâche est proportionnelle à la vérifiabilité de la tâche. Toutes les tâches qui sont possibles à résoudre et faciles à vérifier seront résolues par l’IA. La capacité d’entraîner l’IA à résoudre une tâche est proportionnelle au fait que la tâche possède les propriétés suivantes : 1. Vérité objective : tout le monde s’accorde sur ce que sont les bonnes solutions 2. Vérification rapide : n’importe quelle solution peut être vérifiée en quelques secondes 3. Évolutif à vérifier : de nombreuses solutions peuvent être vérifiées simultanément 4. Faible bruit : la vérification est aussi étroitement corrélée que possible à la qualité de la solution 5. Récompense continue : il est facile de classer les qualités de plusieurs solutions pour un seul problème Une instanciation évidente de la loi du vérificateur est le fait que la plupart des points de référence proposés en IA sont faciles à vérifier et ont jusqu’à présent été résolus. Notez que pratiquement tous les benchmarks populaires au cours des dix dernières années correspondent aux critères #1-4 ; Les benchmarks qui ne répondent pas aux critères #1-4 auraient du mal à devenir populaires. Pourquoi la vérifiabilité est-elle si importante ? La quantité d’apprentissage en IA qui se produit est maximisée lorsque les critères ci-dessus sont satisfaits ; Vous pouvez prendre beaucoup d’étapes de gradient où chaque étape a beaucoup de signal. La vitesse d’itération est essentielle : c’est la raison pour laquelle les progrès dans le monde numérique ont été beaucoup plus rapides que les progrès dans le monde physique. AlphaEvolve de Google est l’un des meilleurs exemples d’exploitation de l’asymétrie de vérification. Il se concentre sur des configurations qui répondent à tous les critères ci-dessus et a conduit à un certain nombre d’avancées en mathématiques et dans d’autres domaines. Différent de ce que nous avons fait dans l’IA au cours des deux dernières décennies, il s’agit d’un nouveau paradigme dans lequel tous les problèmes sont optimisés dans un cadre où le train est équivalent au test. L’asymétrie de vérification est partout, et il est passionnant d’envisager un monde d’intelligence déchiquetée où tout ce que nous pouvons mesurer sera résolu.
299,22K