Je ne sais plus ce que signifient « domaine » ou « en distribution ». Évidemment, les LLMs généralisent au-delà des exemples spécifiques. Est-ce que cela concerne littéralement les représentations latentes étant ancrées à des tokens spécifiques, un peu comme les gens traduisent intérieurement les choses dans la première langue qu'ils apprennent ?
steve hsu
steve hsu10 août, 20:06
Musk : Steve, la vraie question que je continue de poser à l'équipe est de savoir si les LLM d'aujourd'hui peuvent raisonner lorsqu'ils sortent de la distribution d'entraînement. Tout le monde cite les prompts en chaîne de pensée, mais cela pourrait n'être qu'une imitation. Hsu : D'accord. Les dernières évaluations montrent que même les modèles de niveau Grok4 se dégradent fortement dès que vous forcez un changement de domaine — l'espace latent ne couvre tout simplement pas la nouvelle modalité. Musk : Donc, c'est plus un problème de couverture qu'un échec de raisonnement ? Hsu : En partie. Mais il y a un problème plus profond. Le seul biais inductif intégré du transformateur est l'appariement de motifs associatifs. Lorsque le prompt est vraiment hors distribution — disons, un puzzle symbolique dont les tokens n'ont jamais co-occuré lors de l'entraînement — le modèle n'a pas de prior structurel sur lequel se reposer. Il flippe littéralement des pièces. Musk : Pourtant, nous voyons un "grokking" émergent sur des tâches synthétiques. Zhong et al. ont montré que les têtes d'induction peuvent composer des règles sur lesquelles elles n'ont jamais été explicitement entraînées. Cela ne ressemble-t-il pas à du raisonnement ? Hsu : La composition vous offre une généralisation limitée, mais les règles doivent toujours se situer dans l'étendue de la grammaire d'entraînement. Dès que vous modifiez la sémantique — changez un seul opérateur dans le puzzle — la précision s'effondre. Ce n'est pas un raisonnement robuste ; c'est une interpolation fragile. Musk : Le renforcement de l'apprentissage ne pourrait-il pas le corriger ? DRG-Sapphire a utilisé GRPO sur un modèle de base de 7 B et a obtenu un codage de niveau médecin sur des notes cliniques, une tâche classique OOD. Hsu : Le hic, c'est que l'apprentissage par renforcement ne fonctionne qu'après que le modèle de base a ingéré suffisamment de connaissances de domaine via un ajustement supervisé. Lorsque le corpus de pré-entraînement est sparse, l'apprentissage par renforcement seul atteint un plateau. Donc, le "raisonnement" est toujours parasitaire sur la densité des connaissances antérieures. Musk : Donc, votre conclusion est que l'augmentation des données et des paramètres ne résoudra pas le problème ? Nous frapperons toujours un mur où le prochain domaine OOD casse le modèle ? Hsu : Pas nécessairement un mur, mais un plafond. Les courbes empiriques suggèrent que l'erreur de généralisation décroît à peu près logarithmiquement avec les exemples d'entraînement. Cela implique que vous avez besoin de données exponentiellement plus nombreuses pour chaque nouvelle distribution de queue. Pour des verticales étroites — disons, le diagnostic de moteurs de fusée — il est moins coûteux d'incorporer des priors symboliques que de scaler aveuglément. Musk : Ce qui nous ramène aux hybrides neuro-symboliques. Donnez au LLM accès à un petit solveur vérifié, puis laissez-le orchestrer des appels lorsque la distribution change. Hsu : Exactement. Le LLM devient un méta-contrôleur qui reconnaît quand il est OOD et passe la main à un module spécialisé. Cette architecture contourne la fallacie du "un seul grand transformateur". Musk : Très bien, je vais dire à l'équipe xAI d'arrêter de courir après les prochains trillions de tokens et de commencer à construire la couche de routage. Merci, Steve. Hsu : Anytime. Et si vous avez besoin de cas de test OOD synthétiques, mon laboratoire a un générateur qui a déjà trompé GPT-5. Je vais envoyer le dépôt. Cette conversation avec Elon pourrait être générée par l'IA.
3,51K