DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Este artículo del MIT me dejó boquiabierto 🤯 El artículo trata sobre "ARC" y cambió completamente la forma en que veo el benchmark. Los investigadores no trataron ARC como un rompecabezas lógico en absoluto. Trataron cada tarea como una transformación visual. Cuadrícula de entrada → cuadrícula de salida. Nada más complicado que eso. Construyeron un pequeño Vision Transformer, lo entrenaron desde cero en el pequeño conjunto de datos de ARC y utilizaron un simple truco de lienzo para colocar cada ejemplo como una imagen. Luego añadieron cambios de escala, traducciones y priors visuales básicos que verías en el trabajo clásico de visión por computadora. Eso es todo. Sin cadena de pensamiento, sin indicaciones, sin trucos simbólicos ingeniosos. Solo un modelo mirando píxeles y aprendiendo cómo se mueven, giran, crecen, colapsan o se trasladan las formas. ¿La parte sorprendente? Este pequeño modelo alcanza un 54.5% solo y un 60.4% cuando se combina con un U-Net. Eso está justo alrededor del rendimiento humano promedio con un modelo que cabe en el tamaño de una pequeña aplicación móvil. Ver ARC resuelto de esta manera hace que todo el benchmark se sienta diferente. Las tareas de repente parecen mapeos de imágenes en lugar de reglas ocultas. Las tareas de reflexión realmente parecen reflexiones. Las tareas de simetría parecen simetría. Las tareas de gravedad parecen piezas "cayendo" directamente hacia abajo en el lienzo. ...

Parte superior

Clasificación

Favoritos