Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI в Keen Technologies, колишній технічний директор Oculus VR, засновник ID Software та Armadillo Aerospace
#PaperADay 6
ЛОКАЛЬНА ЗАМІНА ОЗНАК ДЛЯ УЗАГАЛЬНЕННЯ В НАВЧАННІ ЗА ДОПОМОГОЮ ПІДКРІПЛЕННЯ
Є гарне обговорення узагальнення як загалом (ха), так і більш конкретно в реальному житті, але ідея дуже проста, і я спробую:
CLOP: Локальні перестановки, узгоджені каналами
Маючи 3D тензор (4D з пакетом), з певною ймовірністю в кожній точці, випадково помінятися позицією з сусідом, поміняючи місцями всі канали як одиницею. Як і dropout, це зменшує надмірне прилягання за допомогою ко-адаптації, але не обмежує жодних каналів, а просто переміщує їх.
Я погоджуюся з ідеєю, що доповнення даних у латентному просторі є ефективнішим для узагальнення, ніж у вхідному просторі. Вони радять робити це якомога нижче просторової ієрархії, але, ймовірно, це не найкраща ідея на рівні 2x2, де є лише чотири можливі перестановки, і будь-яка з них порушує половину просторової інформації.
Зверніть увагу, що вони налаштували ймовірність обміну на гру, чого зазвичай не роблять при звітуванні результатів по набору ігор.
Результати чисто контрольованих навчальних завдань не були помітними, але могли б бути кращими, якщо CLOP вставлений у різні місця та з різними навчальними рецептами.
809
Ґері Гайґакс був у моєму пантеоні героїв як підліток у D&D, але я насправді мало що знав про нього до прочитання цієї книги. Найближче, що я підійшов, — це запитати Маргарет Вайс, одну з авторок Dragonlance і знайому мого батька, про нього по телефону, коли мені було 13.
Ширший вплив D&D (ігри в Id Software були коротко згадані ближче до кінця) значно перевищив його фінансову віддачу, і його шлях був досить складним, але, схоже, до кінця він досить добре влаштувався як «король ботанів».
Померти у 69 років після багатьох проблем зі здоров'ям — це нагадування для нас, у 50-х, піклуватися про себе.
@MikeWitwer

739
#PaperADay 3 (сподіваюся, що вбудовані посилання знімуть достатньо, щоб не надто багато людей роздратувалися через цей контент)
@ylecun останнім часом був актуальним, тож сьогодні я пройшов:
Самоконтрольоване навчання на основі зображень із спільним вбудовуванням прогностичної архітектури
Я загалом погоджуюся з ідеєю, що важливі прогнози стосуються внутрішніх представлень, а не пікселів, тому генеративні моделі можуть бути дещо контрпродуктивними або принаймні непотрібними для багатьох завдань.
Однак я схильний думати, що внутрішнє передбачення має відбуватися на більш детальному рівні, ніж повна обробка зображень, на мініколонці чи навіть нейронному рівні, і з більш тимчасовим компонентом, ніж локальним маскуванням.
Самоконтрольоване навчання працює на великому наборі даних, не маючи уявлення, що буде вимагати від моделі пізніше, лише накопичуючи знання на основі даних. Після цього можна навчити простий лінійний класифікатор (лінійний зонд) на виході і отримати досить хорошу продуктивність. Найкращі лінійні зонди на заморожених самоконтрольованих моделях не такі потужні, як наскрізь навчені класифікатори, але той самий SSM може бути потужним для багатьох різних завдань одночасно.
У статті зазначається, що на відміну від JEPA, методи навчання на основі інваріантності, які беруть одне й те саме зображення і доповнюють його двома різними способами, зберігаючи репрезентативну схожість, отримують свою ефективність за рахунок дослідницького набору доповнень зображення, що не переноситься на інші модальності, такі як аудіо чи текст. Звертаю увагу, що JEPA дуже чутлива до точного маскування (таблиця 6), і це не відчувається суттєво.
Цільовий енкодер зовні схожий на сучасну формулювання цільової моделі в мережах DQN RL з EMA ваг замість випадкової копії, але хоча він був допоміжним засобом стабільності для RL (і не завжди необхідний), він має більш фундаментальну мету — запобігти злиттю моделі представлень на тривіальні для прогнозування. Це, разом із тим, що LayerNorm також є ключовим елементом, не викладено в статті, і мені довелося шукати посилання на це в інших місцях.
Досить дивно, що вони випадково обрізали 0.85-1.0 до контексту, але видаляють блоки лише справа і знизу. Я очікував побачити абляцію цього врожаю.
Збільшення роздільної здатності зображення — це трохи дивний спосіб масштабування моделі. Ймовірно, справа не в роздільній здатності, а в загальній кількості патчів.
Існує велика кількість робіт з самоконтролю, з якою я знайомий лише подібно, тому, ймовірно, я пропускаю деякі ключові відмінні риси JEPA. Я досі розбираюся з основним питанням: що саме навчаються контексти і як архітектура та навчання моделі допомагають уникнути краху.
699
Найкращі
Рейтинг
Вибране
