Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Стаття «Ієрархічні моделі міркування» останнім часом набирає обертів, збираючи десятки тисяч лайків у Twitter за десятками напіввірусних потоків, що досить незвично для наукової роботи.
У документі стверджується точність 40,3% на ARC-AGI-1 з крихітною моделлю (27 млн параметрів), навченою з нуля без будь-яких зовнішніх тренувальних даних - якщо це реально, це стане серйозним проривом у міркуваннях.
Я щойно глибоко занурився в папір і кодову базу...
Вона добре читається, детальна, але проста для сприйняття. Я думаю, що представлені ідеї досить цікаві, а архітектура, ймовірно, цінна.
Ця концепція нагадує мені багато різних ідей, з якими я зіткнувся під час «золотого віку» досліджень архітектури DL, приблизно у 2016-2018 роках. Цей тип досліджень давно не був популярним, тому приємно бачити відновлення інтересу до альтернативних архітектур.
Однак експериментальна установка виявляється критично недосконалою, а це означає, що в даний час у нас немає емпіричного сигналу (принаймні від ARC-AGI) щодо того, чи дійсно архітектура корисна чи ні.
Експеримент ARC-AGI-1 робить наступне, виходячи з мого прочитання коду підготовки даних:
1. Тренуйтеся на 876 404 завданнях, які є варіантами 960 оригінальних завдань за допомогою доповнення:
... 400 від ARC-AGI-1/поїзд
... 400 від ARC-AGI-1/eval
... 160 від ConceptARC
2. Тестуйте на 400 завданнях (ARC-AGI-1/eval), доповнюючи кожне завдання до ~1000 варіантів (насправді це лише 368 151 загалом через особливості процесу аугментації), виробляючи прогноз для кожного варіанту та зводячи прогнози до N=2 шляхом голосування більшістю.
Якщо коротко: вони тренуються на тестових даних.
Ви можете запитати, зачекайте, чому тоді точність 40%, а не 100%? Модель сильно недостатня?
Це пов'язано з тим, що тренувальні дані та дані тестів представляють одні й ті самі вихідні завдання *у різних варіаціях*. Збільшення даних застосовується незалежно до завдань eval у тренувальних даних та завдань eval у тестових даних.
Отже, експеримент приблизно вимірює, як моделі вдається узагальнити до процедурно згенерованих варіантів одних і тих же завдань (тобто, чи може модель навчитися зворотно змінювати фіксований набір статичних перетворень сітки).
Так що поки що не надто захоплюйтеся. Але я вважаю, що цей вид дослідження архітектури є цінним (якщо він супроводжується належним емпіричним валідним сигналом), і що ідея управління персоналом дуже цікава.
Крім того, щоб було зрозуміло, я не думаю, що автори мали якийсь намір ввести в оману і приховати експериментальну проблему - вони, ймовірно, не усвідомлювали, що насправді означала їх тренувальна система.
19,69K
Найкращі
Рейтинг
Вибране