Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

John Carmack

AGI в Keen Technologies, колишній технічний директор Oculus VR, засновник ID Software та Armadillo Aerospace

#PaperADay 3 (сподіваюся, що вбудовані посилання знімуть достатньо, щоб не надто багато людей роздратувалися через цей контент) @ylecun останнім часом був актуальним, тож сьогодні я пройшов: Самоконтрольоване навчання на основі зображень із спільним вбудовуванням прогностичної архітектури Я загалом погоджуюся з ідеєю, що важливі прогнози стосуються внутрішніх представлень, а не пікселів, тому генеративні моделі можуть бути дещо контрпродуктивними або принаймні непотрібними для багатьох завдань. Однак я схильний думати, що внутрішнє передбачення має відбуватися на більш детальному рівні, ніж повна обробка зображень, на мініколонці чи навіть нейронному рівні, і з більш тимчасовим компонентом, ніж локальним маскуванням. Самоконтрольоване навчання працює на великому наборі даних, не маючи уявлення, що буде вимагати від моделі пізніше, лише накопичуючи знання на основі даних. Після цього можна навчити простий лінійний класифікатор (лінійний зонд) на виході і отримати досить хорошу продуктивність. Найкращі лінійні зонди на заморожених самоконтрольованих моделях не такі потужні, як наскрізь навчені класифікатори, але той самий SSM може бути потужним для багатьох різних завдань одночасно. У статті зазначається, що на відміну від JEPA, методи навчання на основі інваріантності, які беруть одне й те саме зображення і доповнюють його двома різними способами, зберігаючи репрезентативну схожість, отримують свою ефективність за рахунок дослідницького набору доповнень зображення, що не переноситься на інші модальності, такі як аудіо чи текст. Звертаю увагу, що JEPA дуже чутлива до точного маскування (таблиця 6), і це не відчувається суттєво. Цільовий енкодер зовні схожий на сучасну формулювання цільової моделі в мережах DQN RL з EMA ваг замість випадкової копії, але хоча він був допоміжним засобом стабільності для RL (і не завжди необхідний), він має більш фундаментальну мету — запобігти злиттю моделі представлень на тривіальні для прогнозування. Це, разом із тим, що LayerNorm також є ключовим елементом, не викладено в статті, і мені довелося шукати посилання на це в інших місцях. Досить дивно, що вони випадково обрізали 0.85-1.0 до контексту, але видаляють блоки лише справа і знизу. Я очікував побачити абляцію цього врожаю. Збільшення роздільної здатності зображення — це трохи дивний спосіб масштабування моделі. Ймовірно, справа не в роздільній здатності, а в загальній кількості патчів. Існує велика кількість робіт з самоконтролю, з якою я знайомий лише подібно, тому, ймовірно, я пропускаю деякі ключові відмінні риси JEPA. Я досі розбираюся з основним питанням: що саме навчаються контексти і як архітектура та навчання моделі допомагають уникнути краху.

Найкращі

Рейтинг

Вибране