Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI в Keen Technologies, бывший технический директор Oculus VR, основатель Id Software и Armadillo Aerospace
#PaperADay 6
ЛОКАЛЬНАЯ СМЕНА ОСОБЕННОСТЕЙ ДЛЯ ОБОБЩЕНИЯ В УЧЕНИИ С УПРАВЛЕНИЕМ
Существует хорошее обсуждение обобщения, как в общем (ха), так и более конкретно в RL, но представленная идея очень проста, и я собираюсь попробовать:
CLOP: Канально-согласованные локальные перестановки
Дано 3D-тензор (4D с батчем), с некоторой вероятностью в каждой позиции случайно поменять местами с соседом, меняя все каналы как единое целое. Как и в случае с дроп-аутом, это уменьшает переобучение за счет совместной адаптации, но не обнуляет никакие каналы, а просто перемещает их.
Я согласен с тем, что увеличение данных в латентном пространстве более эффективно для обобщения, чем в входном пространстве. Они предлагают делать это как можно ниже в пространственной иерархии, но, вероятно, это не будет хорошей идеей на уровне 2x2, где есть только четыре возможные перестановки, и любая из них нарушает половину пространственной информации.
Обратите внимание, что они настраивали вероятность смены на игру, что обычно не делается при отчетах о результатах в наборе игр.
Результаты по чисто контролируемым задачам обучения не были примечательными, но могут быть лучше с CLOP, вставленным в разные места и с разными рецептами обучения.
357
Гэри Гайгакс был в моем пантеоне героев, когда я был подростком и играл в D&D, но я действительно не знал о нем много до чтения этой книги. Ближе всего я подошел, когда спросил Маргарет Уэйс, одного из авторов Dragonlance и знакомую моего отца, о нем по телефону, когда мне было 13.
Широкое влияние D&D (игры от Id Software были кратко упомянуты в конце) значительно превысило финансовые доходы для него, и его путь был довольно тяжелым, но, похоже, к концу он устроился в довольно хорошее место как "король nerds".
Смерть в 69 лет после множества проблем со здоровьем напоминает нам, кто в возрасте 50 лет, заботиться о себе.
@MikeWitwer

693
#PaperADay 3 (надеюсь, встроенные ссылки достаточно снизят видимость, чтобы не слишком много людей были недовольны этим контентом)
@ylecun в последнее время был в центре внимания, поэтому сегодня я ознакомился с:
Обучение с самонаблюдением на изображениях с предсказательной архитектурой совместного встраивания
В целом я согласен с тем, что важные предсказания касаются внутренних представлений, а не пикселей, поэтому генеративные модели могут быть несколько контрпродуктивными или, по крайней мере, ненужными неэффективными для многих задач.
Тем не менее, я склонен думать, что внутреннее предсказание должно происходить на более детальном уровне, чем полная обработка изображения, на уровне миниколонн или даже нейронов, и с большим временным компонентом, чем локальное маскирование.
Обучение с самонаблюдением работает на большом наборе данных, не зная, что будет запрошено у модели позже, просто накапливая знания из данных. После этого вы можете обучить простой линейный классификатор (линейный зонд) на выходных данных и получить довольно хорошую производительность. Лучшие линейные зонды на замороженных моделях с самонаблюдением не так сильны, как классификаторы, обученные от начала до конца, но точно такая же SSM может быть сильной для многих различных задач одновременно.
В статье отмечается, что в отличие от JEPA, методы обучения на основе инвариантности, которые берут одно и то же изображение и увеличивают его двумя разными способами, сохраняя представительную схожесть, получают свою производительность за счет набора увеличений изображений, предвзятых исследователем, что не переносится на другие модальности, такие как аудио или текст. Я отмечаю, что JEPA очень чувствителен к точному маскированию (таблица 6), что не кажется слишком отличным.
Целевой кодировщик поверхностно похож на современную формулировку целевой модели в DQN RL сетях с EMA весов вместо случайного копирования, но хотя это было вспомогательным средством для RL (и не всегда необходимо), здесь у него более фундаментальная цель — предотвратить коллапс представлений в тривиальные для предсказания. Это, наряду с LayerNorm, также являющимся важным элементом этого, не прописано в статье, и мне пришлось искать ссылки на это в других источниках.
Довольно странно, что они применяют случайный обрез 0.85-1.0 к контексту, но удаляют блоки только справа и снизу. Я ожидал увидеть абляцию этого обреза.
Увеличение разрешения изображения — это немного странный способ масштабирования модели. Вероятно, на самом деле не разрешение помогает, а общее количество патчей.
Существует большой объем работ по самонаблюдению, с которым я знаком лишь смутно, поэтому, вероятно, я упускаю некоторые ключевые отличительные аспекты JEPA. Я все еще пытаюсь разобраться с основным вопросом о том, что именно учат контексты и как архитектура модели и обучение направляют это от коллапса.
689
Топ
Рейтинг
Избранное
