Эта статья MIT просто поразила меня 🤯 Статья посвящена "ARC" и она полностью изменила мое восприятие бенчмарка. Исследователи не рассматривали ARC как логическую задачу. Они рассматривали каждую задачу как визуальную трансформацию. Сетка на входе → сетка на выходе. Ничего более сложного. Они построили небольшой Vision Transformer, обучили его с нуля на крошечном наборе данных ARC и использовали простой трюк с холстом, чтобы разместить каждый пример как изображение. Затем они добавили изменения масштаба, трансляции и базовые визуальные приоритеты, которые вы могли бы увидеть в классической компьютерной визуализации. Вот и все. Никакой цепочки размышлений, никаких подсказок, никаких хитрых символических трюков. Просто модель, смотрящая на пиксели и изучающая, как формы движутся, переворачиваются, растут, сжимаются или переносятся. Дикая часть? Эта крошечная модель достигает 54.5% в одиночку и 60.4%, когда комбинируется с U-Net. Это примерно соответствует среднему человеческому уровню производительности с моделью, которая помещается в размер небольшого мобильного приложения. Видеть ARC, решенный таким образом, заставляет весь бенчмарк выглядеть иначе. Задачи внезапно выглядят как отображения изображений, а не как скрытые правила. Задачи на отражение действительно выглядят как отражения. Задачи на симметрию выглядят как симметрия. Задачи на гравитацию выглядят как куски, "падающие" прямо вниз по холсту. ...