Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El artículo "Modelos de Razonamiento Jerárquico" ha estado circulando últimamente, acumulando decenas de miles de "me gusta" en Twitter a través de docenas de hilos semi-virales, lo cual es bastante inusual para un artículo de investigación.
El artículo afirma una precisión del 40.3% en ARC-AGI-1 con un modelo pequeño (27M de parámetros) entrenado desde cero sin ningún dato de entrenamiento externo; si es cierto, esto representaría un gran avance en el razonamiento.
Acabo de hacer un análisis profundo del artículo y la base de código...
Es una buena lectura, detallada pero fácil de seguir. Creo que las ideas presentadas son bastante interesantes y la arquitectura probablemente sea valiosa.
El concepto me recuerda a muchas ideas diferentes que encontré durante la "edad dorada" de la investigación en arquitectura de DL, alrededor de 2016-2018. Este tipo de investigación no ha sido popular durante un tiempo, así que es agradable ver un renovado interés en arquitecturas alternativas.
Sin embargo, el diseño experimental parece estar críticamente defectuoso, lo que significa que actualmente no tenemos ninguna señal empírica (al menos de ARC-AGI) sobre si la arquitectura es realmente útil o no.
El experimento ARC-AGI-1 está haciendo lo siguiente, basado en mi lectura del código de preparación de datos:
1. Entrenar en 876,404 tareas, que son variantes generadas por aumento de 960 tareas originales:
... 400 de ARC-AGI-1/train
... 400 de ARC-AGI-1/eval
... 160 de ConceptARC
2. Probar en 400 tareas (ARC-AGI-1/eval), aumentando cada tarea en ~1000 variantes (en realidad son solo 368,151 en total debido a idiosincrasias del proceso de aumento), produciendo una predicción para cada variante y reduciendo las predicciones a N=2 mediante votación mayoritaria.
En resumen: están entrenando con los datos de prueba.
Podrías preguntar, espera, ¿por qué la precisión es del 40% entonces, en lugar del 100%? ¿el modelo está severamente subajustado?
Eso es porque los datos de entrenamiento y los datos de prueba representan las mismas tareas originales *en diferentes variaciones*. El aumento de datos se aplica de manera independiente a las tareas de evaluación en los datos de entrenamiento y a las tareas de evaluación en los datos de prueba.
Así que lo que el experimento está midiendo, aproximadamente, es cómo el modelo logra generalizar a variantes generadas proceduralmente de las mismas tareas (es decir, si el modelo puede aprender a revertir un conjunto fijo de transformaciones de cuadrícula estáticas).
Así que -- no te emociones demasiado todavía. Pero creo que este tipo de investigación en arquitectura es valiosa (cuando va acompañada de una señal de validación empírica adecuada) y que la idea de HRM es muy interesante.
Además, para ser claros, no creo que los autores tuvieran la intención de engañar y ocultar el problema experimental; probablemente no se dieron cuenta de lo que realmente significaba su configuración de entrenamiento.
19.66K
Populares
Ranking
Favoritas