DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

John Carmack

AGI chez Keen Technologies, ancien directeur technique d’Oculus VR, fondateur d’Id Software et d’Armadillo Aerospace

#PaperADay 3 (en espérant que les liens intégrés réduisent suffisamment la portée pour que trop de gens ne soient pas ennuyés par ce contenu) @ylecun a été d'actualité récemment, donc aujourd'hui j'ai parcouru : Apprentissage auto-supervisé à partir d'images avec une architecture prédictive d'encodage conjoint Je suis globalement d'accord avec l'idée que les prédictions importantes concernent les représentations internes, pas les pixels, donc les modèles génératifs peuvent être quelque peu contre-productifs, ou du moins inutilement inefficaces pour de nombreuses tâches. Cependant, je pense que la prédiction interne doit se faire à un niveau plus granulaire que le traitement d'image complet, au niveau des minicolonnes ou même des neurones, et avec un composant temporel plus important qu'un masquage local. L'entraînement auto-supervisé fonctionne sur un grand ensemble de données sans savoir ce qui sera demandé au modèle plus tard, juste en accumulant des connaissances à partir des données. Ensuite, vous pouvez entraîner un classificateur linéaire simple (sonde linéaire) sur la sortie et obtenir des performances assez bonnes. Les meilleures sondes linéaires sur des modèles auto-supervisés gelés ne sont pas aussi fortes que les classificateurs entraînés de bout en bout, mais le même SSM peut être performant pour de nombreuses tâches différentes en même temps. L'article note qu'en contraste avec JEPA, les méthodes d'entraînement basées sur l'invariance qui prennent la même image et l'augmentent de deux manières différentes tout en maintenant une similarité représentationnelle obtiennent leurs performances au prix d'un ensemble d'augmentations d'images biaisé par le chercheur, ce qui ne se transfère pas à d'autres modalités comme l'audio ou le texte. Je note que JEPA est très sensible au masquage exact effectué (tableau 6), ce qui ne semble pas trop différent. L'encodeur cible est superficiellement similaire à la formulation moderne du modèle cible dans les réseaux DQN RL avec une EMA des poids au lieu d'une copie occasionnelle, mais bien que cela ait été une aide à la stabilité pour RL (et n'est pas toujours nécessaire), il a un but plus fondamental ici pour empêcher le modèle de réduire les représentations à des prédictions triviales. Cela, ainsi que le LayerNorm qui est également un élément crucial de cela, n'est pas précisé dans l'article, et j'ai dû trouver des références ailleurs. C'est un peu étrange qu'ils appliquent un recadrage aléatoire de 0,85 à 1,0 au contexte, mais ne retirent que des blocs à droite et en bas. Je m'attendais à voir une ablation de ce recadrage. Augmenter la résolution de l'image est une façon un peu étrange de mettre à l'échelle le modèle. Ce n'est probablement pas réellement la résolution qui aide, mais le nombre total de patchs. Il existe un large corpus de travaux sur l'auto-supervision dont je ne suis que vaguement familier, donc je manque probablement certains aspects clés qui distinguent JEPA. Je lutte encore avec la question centrale de ce que les contextes apprennent exactement, et comment l'architecture du modèle et l'entraînement l'orientent pour éviter l'effondrement.

Meilleurs

Classement

Favoris