Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La venta pública de PUMP terminó, originalmente también tenía una gran cantidad en Bybit, solo se puso la mitad en la cadena y, al final, solo la cadena tuvo éxito, pero afortunadamente no hubo cobertura por adelantado ...
Recientemente, muchas personas en la comunidad de IA han estado discutiendo VLA (Visión-Lenguaje-Acción).
Investigué específicamente si alguien estaba haciendo proyectos relacionados con VLA en la cadena, vi este proyecto CodecFlow@Codecopenflow y compré un poco.
== ¿Qué está haciendo CodecFlow? ==
Una breve introducción a VLA, VLA es una arquitectura modelo que permite a la IA no solo "hablar" sino "hacer".
Los LLM tradicionales (como GPT) solo pueden entender el lenguaje y proporcionar sugerencias, pero no pueden hacer nada, hacer clic en pantallas o agarrar objetos.
El modelo VLA significa que integra tres capacidades principales:
1. Visión: comprenda imágenes, capturas de pantalla, entradas de cámara o datos de sensores
2. Lenguaje: Comprender las instrucciones en lenguaje natural de los humanos
3. Acción: Genere instrucciones ejecutables como clics del mouse, entradas de teclado y brazos robóticos de control
CodecFlow está haciendo VLA en la cadena, y todos los procesos también pueden ser en cadena, auditables, verificables y liquidables.
En pocas palabras, es la infraestructura de los "bots de IA".
== ¿Por qué presté especial atención a este proyecto? ==
¡Descubrí que sus desarrolladores son contribuyentes principales de LeRobot, el proyecto de código abierto más popular en el espacio VLA!
LeRobot es la base principal para construir modelos VLA en el mundo de código abierto, incluidos VLA livianos como SmolVLA que pueden ejecutarse en computadoras portátiles.
Significa que este equipo realmente entiende la arquitectura VlA y entiende los robots.
Veo que también continúan construyendo, y el precio de la moneda también está aumentando constantemente, soy muy optimista sobre la pista de VLA, y por la tendencia general, VLA y los robots son de hecho el futuro en el mercado.
• Los gigantes de Web2 (Google, Meta, Tesla) están actualmente totalmente comprometidos con la formación de VLA y bots;
• Hay muy pocos proyectos Web3 que puedan realizar aplicaciones VLA, y todavía son muy escasos
• VLA tiene la oportunidad de jugar un gran valor en escenarios como DePIN, automatización web, ejecución de agentes de IA en cadena, etc.
CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump
Siempre DYOR。

26 jun 2025
¿Qué es un operador $CODEC?
Es donde los modelos de Visión-Lenguaje-Acción finalmente hacen que la IA sea útil para el trabajo real.
Un operador es un agente de software autónomo impulsado por modelos VLA que realiza tareas a través de un ciclo continuo de percepción-razón-acción.
Los LLM pueden pensar y hablar brillantemente, pero no pueden señalar, hacer clic o agarrar nada. Son motores de razonamiento puro sin base en el mundo físico.
Los VLA combinan la percepción visual, la comprensión del lenguaje y la salida de acciones estructuradas en un solo paso hacia adelante. Mientras que un LLM describe lo que debería suceder, un modelo VLA en realidad lo hace realidad emitiendo coordenadas, señales de control y comandos ejecutables.
El flujo de trabajo del operador es:
- Percepción: captura capturas de pantalla, transmisiones de cámaras o datos de sensores.
- Razonamiento: procesa observaciones junto con instrucciones en lenguaje natural utilizando el modelo VLA.
- Acción: ejecuta decisiones a través de interacciones de interfaz de usuario o control de hardware, todo en un bucle continuo.
Ejemplos: LLM vs. modelo de operador impulsado por VLA
Programar una reunión
LLM: Proporciona una explicación detallada de la gestión del calendario, describiendo los pasos para programar una reunión.
Operador con modelo VLA:
- Captura el escritorio del usuario.
- Identifica la aplicación de calendario (por ejemplo, Outlook, Google Calendar).
- Navega al jueves, crea una reunión a las 2 p. m. y agrega asistentes.
- Se adapta automáticamente a los cambios en la interfaz de usuario.
Robótica: Clasificación de objetos
LLM: Genera instrucciones escritas precisas para clasificar objetos, como identificar y organizar componentes rojos.
Operador con modelo VLA:
- Observa el espacio de trabajo en tiempo real.
- Identifica los componentes rojos entre los objetos mixtos.
- Planifica trayectorias sin colisiones para un brazo robótico.
- Ejecuta operaciones de pick-and-place, ajustándose dinámicamente a nuevas posiciones y orientaciones.
Los modelos VLA finalmente cierran la brecha entre la IA que puede razonar sobre el mundo y la IA que realmente puede cambiarlo. Son los que transforman la automatización de un frágil seguimiento de reglas a una resolución adaptativa de problemas: trabajadores inteligentes.
"Los scripts tradicionales se rompen cuando cambia el entorno, pero los operadores utilizan la comprensión visual para adaptarse en tiempo real, manejando excepciones en lugar de bloquearse en ellas".

11.19K
Populares
Ranking
Favoritas