Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Le document "Modèles de Raisonnement Hiérarchique" fait récemment le tour, récoltant des dizaines de milliers de likes sur Twitter à travers des dizaines de fils semi-viraux, ce qui est assez inhabituel pour un article de recherche.
L'article revendique une précision de 40,3 % sur ARC-AGI-1 avec un petit modèle (27M de paramètres) entraîné de zéro sans aucune donnée d'entraînement externe -- si c'est vrai, cela représenterait une avancée majeure en matière de raisonnement.
Je viens de faire une plongée approfondie dans le document et la base de code...
C'est une bonne lecture, détaillée mais facile à suivre. Je pense que les idées présentées sont assez intéressantes et que l'architecture est probablement précieuse.
Le concept me rappelle de nombreuses idées différentes que j'ai rencontrées durant l'"âge d'or" de la recherche sur l'architecture DL, vers 2016-2018. Ce type de recherche n'a pas été populaire depuis un certain temps, donc c'est agréable de voir un regain d'intérêt pour des architectures alternatives.
Cependant, la configuration expérimentale semble être gravement défectueuse, ce qui signifie que nous n'avons actuellement aucun signal empirique (du moins de l'ARC-AGI) quant à savoir si l'architecture est réellement utile ou non.
L'expérience ARC-AGI-1 fait ce qui suit, d'après ma lecture du code de préparation des données :
1. Entraîner sur 876 404 tâches, qui sont des variantes générées par augmentation de 960 tâches originales :
... 400 de ARC-AGI-1/train
... 400 de ARC-AGI-1/eval
... 160 de ConceptARC
2. Tester sur 400 tâches (ARC-AGI-1/eval), en augmentant chaque tâche en ~1000 variantes (en réalité, il n'y en a que 368 151 au total en raison des particularités du processus d'augmentation), produisant une prédiction pour chaque variante, et réduisant les prédictions à N=2 par vote majoritaire.
En résumé : ils s'entraînent sur les données de test.
Vous pourriez demander, attendez, pourquoi la précision est-elle de 40 % alors, plutôt que 100 % ? Le modèle est-il gravement sous-ajusté ?
C'est parce que les données d'entraînement et les données de test représentent les mêmes tâches originales *sous différentes variations*. L'augmentation des données est appliquée indépendamment aux tâches d'évaluation dans les données d'entraînement et aux tâches d'évaluation dans les données de test.
Donc, ce que l'expérience mesure, en gros, c'est comment le modèle parvient à généraliser à des variantes générées procéduralement des mêmes tâches (c'est-à-dire si le modèle peut apprendre à inverser un ensemble fixe de transformations de grille statiques).
Donc -- ne vous emballez pas trop pour l'instant. Mais je pense que ce type de recherche sur l'architecture est précieux (lorsqu'il est accompagné d'un signal de validation empirique approprié) et que l'idée de HRM est très intéressante.
Aussi, pour être clair, je ne pense pas que les auteurs aient eu l'intention de tromper et de cacher le problème expérimental -- ils n'ont probablement pas réalisé ce que leur configuration d'entraînement signifiait réellement.
19,9K
Meilleurs
Classement
Favoris