Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

John Carmack
AGI chez Keen Technologies, ancien directeur technique d’Oculus VR, fondateur d’Id Software et d’Armadillo Aerospace
#PaperADay 6
ÉCHANGE DE CARACTÉRISTIQUES LOCALES POUR LA GÉNÉRALISATION DANS L'APPRENTISSAGE PAR RENFORCEMENT
Il y a une bonne discussion sur la généralisation, à la fois en général (ha) et plus spécifiquement dans l'AR, mais l'idée présentée est très simple, et je vais essayer :
CLOP : Permutations locales cohérentes par canal
Étant donné un tenseur 3D (4D avec lot), avec une certaine probabilité à chaque emplacement, échanger aléatoirement la position avec un voisin, en échangeant tous les canaux comme une unité. Comme le dropout, cela réduit le surapprentissage par co-adaptation, mais cela ne met aucun canal à zéro, cela les déplace simplement.
Je suis d'accord avec l'idée que l'augmentation des données dans l'espace latent est plus efficace pour la généralisation que dans l'espace d'entrée. Ils suggèrent de le faire aussi bas que possible dans la hiérarchie spatiale, mais cela ne serait probablement pas une bonne idée à un niveau 2x2, où il n'y a que quatre permutations possibles et chacune d'elles perturbe la moitié des informations spatiales.
Notez qu'ils ont ajusté la chance d'échange par partie, ce qui n'est généralement pas fait lors de la présentation des résultats sur un ensemble de jeux.
Les résultats sur des tâches d'apprentissage supervisé pur n'étaient pas remarquables, mais pourraient être meilleurs avec le CLOP inséré à différents endroits et avec différentes recettes d'entraînement.
506
Gary Gygax faisait partie de mon panthéon de héros en tant que joueur de D&D adolescent, mais je ne savais vraiment pas grand-chose sur lui avant de lire ce livre. Le plus proche que j'ai pu faire a été de demander à Margaret Weis, l'une des auteurs de Dragonlance et une connaissance de mon père, à son sujet au téléphone quand j'avais 13 ans.
L'impact plus large de D&D (les jeux chez Id Software ont été brièvement mentionnés vers la fin) a largement dépassé les retours financiers pour lui, et son parcours a été assez difficile, mais il semble qu'il se soit bien installé en tant que "roi des nerds" à la fin.
Mourir à 69 ans après de nombreux problèmes de santé est un rappel pour ceux d'entre nous dans la cinquantaine de prendre soin de nous.
@MikeWitwer

698
#PaperADay 3 (en espérant que les liens intégrés réduisent suffisamment la portée pour que trop de gens ne soient pas ennuyés par ce contenu)
@ylecun a été d'actualité récemment, donc aujourd'hui j'ai parcouru :
Apprentissage auto-supervisé à partir d'images avec une architecture prédictive d'encodage conjoint
Je suis globalement d'accord avec l'idée que les prédictions importantes concernent les représentations internes, pas les pixels, donc les modèles génératifs peuvent être quelque peu contre-productifs, ou du moins inutilement inefficaces pour de nombreuses tâches.
Cependant, je pense que la prédiction interne doit se faire à un niveau plus granulaire que le traitement d'image complet, au niveau des minicolonnes ou même des neurones, et avec un composant temporel plus important qu'un masquage local.
L'entraînement auto-supervisé fonctionne sur un grand ensemble de données sans savoir ce qui sera demandé au modèle plus tard, juste en accumulant des connaissances à partir des données. Ensuite, vous pouvez entraîner un classificateur linéaire simple (sonde linéaire) sur la sortie et obtenir des performances assez bonnes. Les meilleures sondes linéaires sur des modèles auto-supervisés gelés ne sont pas aussi fortes que les classificateurs entraînés de bout en bout, mais le même SSM peut être performant pour de nombreuses tâches différentes en même temps.
L'article note qu'en contraste avec JEPA, les méthodes d'entraînement basées sur l'invariance qui prennent la même image et l'augmentent de deux manières différentes tout en maintenant une similarité représentationnelle obtiennent leurs performances au prix d'un ensemble d'augmentations d'images biaisé par le chercheur, ce qui ne se transfère pas à d'autres modalités comme l'audio ou le texte. Je note que JEPA est très sensible au masquage exact effectué (tableau 6), ce qui ne semble pas trop différent.
L'encodeur cible est superficiellement similaire à la formulation moderne du modèle cible dans les réseaux DQN RL avec une EMA des poids au lieu d'une copie occasionnelle, mais bien que cela ait été une aide à la stabilité pour RL (et n'est pas toujours nécessaire), il a un but plus fondamental ici pour empêcher le modèle de réduire les représentations à des prédictions triviales. Cela, ainsi que le LayerNorm qui est également un élément crucial de cela, n'est pas précisé dans l'article, et j'ai dû trouver des références ailleurs.
C'est un peu étrange qu'ils appliquent un recadrage aléatoire de 0,85 à 1,0 au contexte, mais ne retirent que des blocs à droite et en bas. Je m'attendais à voir une ablation de ce recadrage.
Augmenter la résolution de l'image est une façon un peu étrange de mettre à l'échelle le modèle. Ce n'est probablement pas réellement la résolution qui aide, mais le nombre total de patchs.
Il existe un large corpus de travaux sur l'auto-supervision dont je ne suis que vaguement familier, donc je manque probablement certains aspects clés qui distinguent JEPA. Je lutte encore avec la question centrale de ce que les contextes apprennent exactement, et comment l'architecture du modèle et l'entraînement l'orientent pour éviter l'effondrement.
690
Meilleurs
Classement
Favoris
