Este artigo do MIT simplesmente me deixou de boca aberta 🤯 O artigo é sobre "ARC" e mudou completamente a forma como vejo o benchmark. Os pesquisadores não trataram o ARC como um quebra-cabeça lógico de forma alguma. Eles trataram cada tarefa como uma transformação visual. Grade de entrada → grade de saída. Nada mais complicado do que isso. Eles construíram um pequeno Vision Transformer, treinaram-no do zero no pequeno conjunto de dados do ARC e usaram um truque simples de canvas para colocar cada exemplo como uma imagem. Depois, adicionaram mudanças de escala, traduções e priors visuais básicos que você veria em trabalhos clássicos de visão computacional. E é isso. Sem cadeia de pensamento, sem prompts, sem truques simbólicos engenhosos. Apenas um modelo olhando para pixels e aprendendo como as formas se movem, giram, crescem, colapsam ou se transferem. A parte surpreendente? Este pequeno modelo atinge 54,5% sozinho e 60,4% quando combinado com um U-Net. Isso está bem próximo do desempenho humano médio com um modelo que cabe no tamanho de um pequeno aplicativo móvel. Ver o ARC resolvido dessa forma faz com que todo o benchmark pareça diferente. As tarefas de repente parecem mapeamentos de imagem em vez de regras ocultas. As tarefas de reflexão realmente parecem reflexões. As tarefas de simetria parecem simetria. As tarefas de gravidade parecem peças "caindo" diretamente para baixo no canvas. ...