#PaperADay 3 (надеюсь, встроенные ссылки достаточно снизят видимость, чтобы не слишком много людей были недовольны этим контентом) @ylecun в последнее время был в центре внимания, поэтому сегодня я ознакомился с: Обучение с самонаблюдением на изображениях с предсказательной архитектурой совместного встраивания В целом я согласен с тем, что важные предсказания касаются внутренних представлений, а не пикселей, поэтому генеративные модели могут быть несколько контрпродуктивными или, по крайней мере, ненужными неэффективными для многих задач. Тем не менее, я склонен думать, что внутреннее предсказание должно происходить на более детальном уровне, чем полная обработка изображения, на уровне миниколонн или даже нейронов, и с большим временным компонентом, чем локальное маскирование. Обучение с самонаблюдением работает на большом наборе данных, не зная, что будет запрошено у модели позже, просто накапливая знания из данных. После этого вы можете обучить простой линейный классификатор (линейный зонд) на выходных данных и получить довольно хорошую производительность. Лучшие линейные зонды на замороженных моделях с самонаблюдением не так сильны, как классификаторы, обученные от начала до конца, но точно такая же SSM может быть сильной для многих различных задач одновременно. В статье отмечается, что в отличие от JEPA, методы обучения на основе инвариантности, которые берут одно и то же изображение и увеличивают его двумя разными способами, сохраняя представительную схожесть, получают свою производительность за счет набора увеличений изображений, предвзятых исследователем, что не переносится на другие модальности, такие как аудио или текст. Я отмечаю, что JEPA очень чувствителен к точному маскированию (таблица 6), что не кажется слишком отличным. Целевой кодировщик поверхностно похож на современную формулировку целевой модели в DQN RL сетях с EMA весов вместо случайного копирования, но хотя это было вспомогательным средством для RL (и не всегда необходимо), здесь у него более фундаментальная цель — предотвратить коллапс представлений в тривиальные для предсказания. Это, наряду с LayerNorm, также являющимся важным элементом этого, не прописано в статье, и мне пришлось искать ссылки на это в других источниках. Довольно странно, что они применяют случайный обрез 0.85-1.0 к контексту, но удаляют блоки только справа и снизу. Я ожидал увидеть абляцию этого обреза. Увеличение разрешения изображения — это немного странный способ масштабирования модели. Вероятно, на самом деле не разрешение помогает, а общее количество патчей. Существует большой объем работ по самонаблюдению, с которым я знаком лишь смутно, поэтому, вероятно, я упускаю некоторые ключевые отличительные аспекты JEPA. Я все еще пытаюсь разобраться с основным вопросом о том, что именно учат контексты и как архитектура модели и обучение направляют это от коллапса.