Esse artigo do MIT simplesmente me 🤯 deixou de surpresa O artigo é sobre "ARC" e mudou completamente a forma como vejo o benchmark. Os pesquisadores não trataram o ARC como um quebra-cabeça lógico de forma alguma. Eles tratavam cada tarefa como uma transformação visual. Grade dentro → grade fora. Nada mais complicado do que isso. Eles construíram um pequeno Transformador de Visão, treinaram do zero no pequeno conjunto de dados do ARC e usaram um truque simples de tela para posicionar cada exemplo como uma imagem. Depois adicionaram mudanças de escala, traduções e priors visuais básicos que você vê em trabalhos clássicos de visão computacional. É isso. Sem cadeia de pensamento, sem estímulos, sem truques simbólicos inteligentes. Apenas um modelo olhando para pixels e aprendendo como as formas se movem, viram, crescem, colapsam ou se transportam. A parte selvagem? Esse modelo minúsculo atinge 54,5% sozinho e 60,4% quando combinado com um U-Net. Isso está exatamente em torno do desempenho humano médio com um modelo que se encaixa no tamanho de um aplicativo móvel pequeno. Ver ARC resolvido dessa forma faz todo o benchmark parecer diferente. As tarefas de repente parecem mapeamentos de imagens em vez de regras ocultas. Tarefas de reflexão na verdade parecem reflexos. Tarefas de simetria parecem simetria. Tarefas de gravidade parecem peças "caindo" diretamente pela tela. ...