Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

CodecFlow

Capa de ejecución para operadores de IA y robótica en @Solana CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump

Los VLA son todavía muy nuevos y a mucha gente le resulta difícil entender la diferencia entre los VLA y los LLM. Aquí hay una inmersión profunda en cómo estos sistemas de IA difieren en razonamiento, detección y acción. Parte 1. Analicemos las distinciones clave y cómo los agentes de IA envueltos alrededor de un LLM difieren de los agentes operadores que usan modelos VLA: 1. Sentido: Cómo perciben el mundo Agente (LLM): Procesa texto o datos estructurados, por ejemplo, JSON, API y, a veces, imágenes. Es como un cerebro que trabaja con entradas limpias y abstractas. Piense en leer un manual o analizar una hoja de cálculo. Ideal para entornos estructurados, pero limitado por lo que se le proporciona. Operador (VLA): ve píxeles sin procesar en tiempo real de las cámaras, además de datos del sensor (por ejemplo, tacto, posición) y propiocepción (autoconciencia del movimiento). Es como navegar por el mundo con ojos y sentidos, prosperando en entornos dinámicos y desordenados como interfaces de usuario o espacios físicos. 2. Actuar: cómo interactúan Agente: Actúa llamando a funciones, herramientas o API. Imagínelo como un gerente que envía instrucciones precisas como "reservar un vuelo a través de la API de Expedia". Es deliberado, pero se basa en herramientas prediseñadas e interfaces claras. Operador: Ejecuta acciones continuas de bajo nivel, como mover el cursor del mouse, escribir o controlar las articulaciones del robot. Es como un trabajador calificado que manipula directamente el entorno, ideal para tareas que requieren precisión en tiempo real. 3. Control: cómo toman decisiones Agente: Sigue un bucle lento y reflexivo: planificar, llamar a una herramienta, evaluar el resultado, repetir. Está vinculado a tokens (limitado por el procesamiento de texto) y a la red (esperando respuestas de API). Esto lo hace metódico pero lento para las tareas en tiempo real. Operador: Opera, tomando decisiones paso a paso en un estrecho ciclo de retroalimentación. Piense en ello como un jugador que reacciona instantáneamente a lo que está en la pantalla. Esta velocidad permite la interacción de fluidos, pero exige un procesamiento robusto en tiempo real. 4. Datos para aprender: qué alimenta su entrenamiento Agente: Entrenado en vastos corpus de texto, instrucciones, documentación o conjuntos de datos RAG (Retrieval-Augmented Generation). Aprende de libros, código o preguntas frecuentes, sobresaliendo en el razonamiento sobre el conocimiento estructurado. Operador: Aprende de demostraciones (por ejemplo, videos de humanos realizando tareas), registros de teleoperación o señales de recompensa. Es como aprender observando y practicando, perfecto para tareas donde las instrucciones explícitas son escasas. 5. Modos de falla: dónde se rompen Agente: Propenso a la alucinación (inventar respuestas) o planes frágiles a largo plazo que se desmoronan si falla un paso. Es como un estratega que piensa demasiado o malinterpreta la situación. Operador: se enfrenta a un cambio de covariable (cuando los datos de entrenamiento no coinciden con las condiciones del mundo real) o a errores compuestos en el control (pequeños errores que se convierten en una bola de nieve). Es como un conductor que pierde el control en una carretera desconocida. 6. Infra: la tecnología detrás de ellos Agente: se basa en un prompt/router para decidir a qué herramientas llamar, un registro de herramientas para las funciones disponibles y memoria/RAG para el contexto. Es una configuración modular, como un centro de comando que orquesta tareas. Operador: necesita canalizaciones de ingesta de vídeo, un servidor de acciones para el control en tiempo real, un escudo de seguridad para evitar acciones dañinas y un búfer de reproducción para almacenar experiencias. Es un sistema de alto rendimiento diseñado para entornos dinámicos. 7. Donde brilla cada uno: sus puntos dulces Agente: Domina los flujos de trabajo con API limpias (por ejemplo, automatización de procesos comerciales), razonamiento sobre documentos (por ejemplo, resumen de informes) o generación de código. Es su opción para tareas estructuradas y de alto nivel. Operador: Sobresale en entornos desordenados y sin API, como navegar por interfaces de usuario torpes, controlar robots o abordar tareas similares a las de un juego. Si implica interacción en tiempo real con sistemas impredecibles, VLA es el rey. 8. Modelo mental: planificador + hacedor Piense en el agente de LLM como el planificador: divide tareas complejas en objetivos claros y lógicos. El operador VLA es el hacedor, ejecutando esos objetivos interactuando directamente con píxeles o sistemas físicos. Un verificador (otro sistema o agente) monitorea los resultados para garantizar el éxito. $CODEC

Codecflow Optr ofrece un enfoque unificado para crear agentes que ven, razonan y actúan en entornos digitales y físicos. Ya sea automatizando flujos de trabajo de escritorio, controlando brazos robóticos o probando en simulación, utiliza el mismo modelo mental y primitivas.

Las caídas en un mercado alcista están destinadas a ser compradas, especialmente en proyectos con grandes catalizadores Todos sabemos que la IA es la narrativa de este ciclo, iniciado por ai16z y Virtuals el año pasado. Mi apuesta es que el mercado se centrará en tecnologías más complejas y sofisticadas, como las VLA, y déjame decirte por qué. Los LLM (Large Language Models) leen y escriben principalmente texto: son excelentes para explicar, planificar y generar instrucciones, pero no controlan por sí mismos los motores ni interactúan con el mundo físico (como puede haber experimentado con chatgpt). Los VLA (modelos de acción de lenguaje de visión) se diferencian de los LLM en que son sistemas multimodales que miran las cosas (visión), comprenden instrucciones (lenguaje) y producen acciones directamente. Es como decirle a un robot que tome una taza roja y luego mover su brazo para hacerlo. Los VLA se entrenan con ejemplos que combinan imágenes / video + instrucciones + rastros de acción real (cómo se movió realmente un robot), y deben ejecutarse de manera rápida y segura en tiempo real. Los LLM, por su parte, están capacitados en grandes colecciones de texto y se enfocan en tareas de razonamiento y lenguaje. TL; Los DR LLMs piensan y hablan mientras los VLAs ven, razonan y actúan. Como puede ver, los VLA son una adición importante a los LLM y permitirán notablemente la próxima innovación 0 a 1 en la economía general que será la robótica. La mayoría de los fondos de inversión están destinando una gran parte de sus inversiones a este sector, visto como la próxima evolución lógica en la industria de la IA. Ya hice una publicación hace un tiempo sobre el líder actual en el mercado de criptomonedas, @codecopenflow, que no recaudó capital (lanzamiento justo) pero está enviando productos de vanguardia y actualmente se encuentra en $ 23 millones de FDV. Para información, otros competidores criptográficos recaudaron $ 20 millones (@openmind_agi) en lo que probablemente sea un FDV de $ 200 millones a $ 300 millones ++, mientras que aún no se ha construido ni enviado ningún producto o comunidad. Lo que convierte a Codec en un proyecto líder en el sector es que abordan un cuello de botella crucial en la robótica y la IA, que es la dificultad de que todas las herramientas de IA interactúen juntas. Déjame explicarte. Su última versión, OPTR (operador), es un conjunto de herramientas que ayuda a crear operadores capaces de interactuar en múltiples plataformas, como robots, escritorios, navegadores o simulaciones. El objetivo de un operador es ver, razonar y actuar (VLA) tanto en el mundo digital (computadoras) como en el físico (robots). Este kit de herramientas sirve como infraestructura central para los equipos robóticos que buscan probar su producto y mejorar el proceso general al proporcionar una experiencia unificada en lugar de una experiencia separada para navegadores web, simulaciones o robots. Básicamente, esto hace que el operador sea adaptable y autónomo independientemente de su entorno. Así que lo consigues, ahorrará mucho tiempo a las empresas y desarrolladores que antes tenían que pasar por cada paso manualmente y donde puedes ahorrar tiempo puedes ahorrar dinero. También permitirá a Codec construir sus propios proyectos de operador y lanzar nuevas capacidades relativamente rápido al mercado, especialmente a través de su mercado. TL; DR: Probablemente hayas visto videos de robots doblando tejidos, clasificando cajas o saltando sobre varios elementos. Todos han sido entrenados para este caso de uso muy específico y, desafortunadamente, una habilidad no se puede reutilizar en otro entorno como lo haría un humano. OPTR de Codec resuelve esto al hacer que las habilidades sean transferibles entre entornos y situaciones, lo que hace que la capacitación y el desarrollo sean mucho más rápidos y económicos para las empresas. Es por eso que Codec es tan interesante para unificar el mundo digital con el mundo físico. $CODEC, codificado.

Nos alegra ver que la comunidad china se da cuenta de CodecFlow y le encanta lo que estamos construyendo. Bienvenido. Apenas estamos comenzando. Mucho más por venir.

La venta pública de PUMP terminó, originalmente también tenía una gran cantidad en Bybit, solo se puso la mitad en la cadena y, al final, solo la cadena tuvo éxito, pero afortunadamente no hubo cobertura por adelantado ... Recientemente, muchas personas en la comunidad de IA han estado discutiendo VLA (Visión-Lenguaje-Acción). Investigué específicamente si alguien estaba haciendo proyectos relacionados con VLA en la cadena, vi este proyecto CodecFlow@Codecopenflow y compré un poco. == ¿Qué está haciendo CodecFlow? == Una breve introducción a VLA, VLA es una arquitectura modelo que permite a la IA no solo "hablar" sino "hacer". Los LLM tradicionales (como GPT) solo pueden entender el lenguaje y proporcionar sugerencias, pero no pueden hacer nada, hacer clic en pantallas o agarrar objetos. El modelo VLA significa que integra tres capacidades principales: 1. Visión: comprenda imágenes, capturas de pantalla, entradas de cámara o datos de sensores 2. Lenguaje: Comprender las instrucciones en lenguaje natural de los humanos 3. Acción: Genere instrucciones ejecutables como clics del mouse, entradas de teclado y brazos robóticos de control CodecFlow está haciendo VLA en la cadena, y todos los procesos también pueden ser en cadena, auditables, verificables y liquidables. En pocas palabras, es la infraestructura de los "bots de IA". == ¿Por qué presté especial atención a este proyecto? == ¡Descubrí que sus desarrolladores son contribuyentes principales de LeRobot, el proyecto de código abierto más popular en el espacio VLA! LeRobot es la base principal para construir modelos VLA en el mundo de código abierto, incluidos VLA livianos como SmolVLA que pueden ejecutarse en computadoras portátiles. Significa que este equipo realmente entiende la arquitectura VlA y entiende los robots. Veo que también continúan construyendo, y el precio de la moneda también está aumentando constantemente, soy muy optimista sobre la pista de VLA, y por la tendencia general, VLA y los robots son de hecho el futuro en el mercado. • Los gigantes de Web2 (Google, Meta, Tesla) están actualmente totalmente comprometidos con la formación de VLA y bots; • Hay muy pocos proyectos Web3 que puedan realizar aplicaciones VLA, y todavía son muy escasos • VLA tiene la oportunidad de jugar un gran valor en escenarios como DePIN, automatización web, ejecución de agentes de IA en cadena, etc. CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump Siempre DYOR。

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas