Codec ouvrant la voie pour que CT comprenne la différence entre les VLA et les LLM.
CodecFlow
CodecFlowil y a 12 heures
Les VLAs sont encore très nouveaux et beaucoup de gens ont du mal à comprendre la différence entre les VLAs et les LLMs. Voici une plongée approfondie sur la façon dont ces systèmes d'IA diffèrent en matière de raisonnement, de perception et d'action. Partie 1. Décomposons les distinctions clés et comment les agents d'IA entourés d'un LLM diffèrent des agents opérateurs qui utilisent des modèles VLA : 1. Perception : Comment ils perçoivent le monde Agent (LLM) : Traite du texte ou des données structurées, par exemple JSON, APIs, et parfois des images. C'est comme un cerveau travaillant avec des entrées propres et abstraites. Pensez à lire un manuel ou à analyser un tableau. Excellent pour des environnements structurés mais limité par ce qui lui est fourni. Opérateur (VLA) : Voit des pixels bruts en temps réel provenant de caméras, plus des données de capteurs (par exemple, toucher, position) et de la proprioception (conscience de soi du mouvement). C'est comme naviguer dans le monde avec des yeux et des sens, prospérant dans des environnements dynamiques et désordonnés comme les interfaces utilisateur ou les espaces physiques. 2. Action : Comment ils interagissent Agent : Agit en appelant des fonctions, des outils ou des APIs. Imaginez-le comme un manager envoyant des instructions précises comme "réserver un vol via l'API Expedia". C'est délibéré mais repose sur des outils préconstruits et des interfaces claires. Opérateur : Exécute des actions continues et de bas niveau, comme déplacer un curseur de souris, taper ou contrôler des articulations de robot. C'est comme un travailleur qualifié manipulant directement l'environnement, idéal pour des tâches nécessitant une précision en temps réel. 3. Contrôle : Comment ils prennent des décisions Agent : Suit une boucle lente et réfléchie : planifier, appeler un outil, évaluer le résultat, répéter. Il est lié aux tokens (limité par le traitement du texte) et lié au réseau (attendant les réponses des APIs). Cela le rend méthodique mais lent pour les tâches en temps réel. Opérateur : Fonctionne, prenant des décisions étape par étape dans une boucle de rétroaction serrée. Pensez à un joueur réagissant instantanément à ce qui est à l'écran. Cette rapidité permet une interaction fluide mais exige un traitement robuste en temps réel. 4. Données à apprendre : Ce qui alimente leur formation Agent : Formé sur d'énormes corpus de texte, instructions, documentation ou ensembles de données RAG (Génération Augmentée par Récupération). Il apprend à partir de livres, de code ou de FAQ, excellant dans le raisonnement sur des connaissances structurées. Opérateur : Apprend par démonstrations (par exemple, vidéos d'humains effectuant des tâches), journaux de téléopération ou signaux de récompense. C'est comme apprendre en regardant et en pratiquant, parfait pour des tâches où les instructions explicites sont rares. 5. Modes de défaillance : Où ils échouent Agent : Sujet à l'hallucination (inventer des réponses) ou à des plans à long terme fragiles qui s'effondrent si une étape échoue. C'est comme un stratège qui réfléchit trop ou mal interprète la situation. Opérateur : Fait face à un changement de covariables (lorsque les données d'entraînement ne correspondent pas aux conditions réelles) ou à des erreurs cumulatives dans le contrôle (de petites erreurs s'accumulent). C'est comme un conducteur perdant le contrôle sur une route inconnue. 6. Infra : La technologie derrière eux Agent : Dépend d'un prompt/router pour décider quels outils appeler, d'un registre d'outils pour les fonctions disponibles, et de la mémoire/RAG pour le contexte. C'est une configuration modulaire, comme un centre de commandement orchestrant des tâches. Opérateur : Nécessite des pipelines d'ingestion vidéo, un serveur d'action pour le contrôle en temps réel, un bouclier de sécurité pour prévenir les actions nuisibles, et un tampon de lecture pour stocker les expériences. C'est un système haute performance construit pour des environnements dynamiques. 7. Où chacun brille : Leurs points forts Agent : Domine dans les flux de travail avec des APIs propres (par exemple, automatisation des processus commerciaux), raisonnement sur des documents (par exemple, résumer des rapports) ou génération de code. C'est votre référence pour des tâches structurées et de haut niveau. Opérateur : Excelle dans des environnements désordonnés, sans API, comme naviguer dans des interfaces utilisateur encombrées, contrôler des robots ou s'attaquer à des tâches de type jeu. Si cela implique une interaction en temps réel avec des systèmes imprévisibles, le VLA est roi. 8. Modèle mental : Planificateur + Exécutant Pensez à l'Agent LLM comme au planificateur : il décompose des tâches complexes en objectifs clairs et logiques. L'Opérateur VLA est l'exécutant, réalisant ces objectifs en interagissant directement avec des pixels ou des systèmes physiques. Un vérificateur (un autre système ou agent) surveille les résultats pour garantir le succès. $CODEC
3,24K