Стаття «Ієрархічні моделі міркування» останнім часом набирає обертів, збираючи десятки тисяч лайків у Twitter за десятками напіввірусних потоків, що досить незвично для наукової роботи. У документі стверджується точність 40,3% на ARC-AGI-1 з крихітною моделлю (27 млн параметрів), навченою з нуля без будь-яких зовнішніх тренувальних даних - якщо це реально, це стане серйозним проривом у міркуваннях. Я щойно глибоко занурився в папір і кодову базу... Вона добре читається, детальна, але проста для сприйняття. Я думаю, що представлені ідеї досить цікаві, а архітектура, ймовірно, цінна. Ця концепція нагадує мені багато різних ідей, з якими я зіткнувся під час «золотого віку» досліджень архітектури DL, приблизно у 2016-2018 роках. Цей тип досліджень давно не був популярним, тому приємно бачити відновлення інтересу до альтернативних архітектур. Однак експериментальна установка виявляється критично недосконалою, а це означає, що в даний час у нас немає емпіричного сигналу (принаймні від ARC-AGI) щодо того, чи дійсно архітектура корисна чи ні. Експеримент ARC-AGI-1 робить наступне, виходячи з мого прочитання коду підготовки даних: 1. Тренуйтеся на 876 404 завданнях, які є варіантами 960 оригінальних завдань за допомогою доповнення: ... 400 від ARC-AGI-1/поїзд ... 400 від ARC-AGI-1/eval ... 160 від ConceptARC 2. Тестуйте на 400 завданнях (ARC-AGI-1/eval), доповнюючи кожне завдання до ~1000 варіантів (насправді це лише 368 151 загалом через особливості процесу аугментації), виробляючи прогноз для кожного варіанту та зводячи прогнози до N=2 шляхом голосування більшістю. Якщо коротко: вони тренуються на тестових даних. Ви можете запитати, зачекайте, чому тоді точність 40%, а не 100%? Модель сильно недостатня? Це пов'язано з тим, що тренувальні дані та дані тестів представляють одні й ті самі вихідні завдання *у різних варіаціях*. Збільшення даних застосовується незалежно до завдань eval у тренувальних даних та завдань eval у тестових даних. Отже, експеримент приблизно вимірює, як моделі вдається узагальнити до процедурно згенерованих варіантів одних і тих же завдань (тобто, чи може модель навчитися зворотно змінювати фіксований набір статичних перетворень сітки). Так що поки що не надто захоплюйтеся. Але я вважаю, що цей вид дослідження архітектури є цінним (якщо він супроводжується належним емпіричним валідним сигналом), і що ідея управління персоналом дуже цікава. Крім того, щоб було зрозуміло, я не думаю, що автори мали якийсь намір ввести в оману і приховати експериментальну проблему - вони, ймовірно, не усвідомлювали, що насправді означала їх тренувальна система.
19,69K