La venta pública de PUMP terminó, originalmente también tenía una gran cantidad en Bybit, solo se colocó la mitad en la cadena y, al final, solo la cadena tuvo éxito, pero afortunadamente no hubo cobertura por adelantado ... Hablando de eso, muchas personas en la comunidad de IA han estado discutiendo VLA (Visión-Lenguaje-Acción) recientemente. Investigué específicamente si alguien estaba trabajando en proyectos relacionados con VLA en la cadena, vi este proyecto de CodecFlow @Codecopenflow y compré un poco. == ¿Qué está haciendo CodecFlow? == Una breve introducción a VLA, VLA es una arquitectura modelo que permite a la IA no solo "hablar" sino "hacer". Los LLM tradicionales (como GPT) solo pueden entender el lenguaje y proporcionar sugerencias, pero no realizan operaciones prácticas, no hacen clic en pantallas ni agarran objetos. El modelo VLA significa que integra tres capacidades principales: 1. Visión: comprenda las pantallas, las capturas de pantalla, las entradas de la cámara o los datos de los sensores 2. Lenguaje: Comprender las instrucciones del lenguaje natural humano 3. Acción: Genere comandos ejecutables como clics del mouse, entradas de teclado y brazos robóticos de control CodecFlow está haciendo VLA en la cadena, y todos los procesos de operación también se pueden cargar en la cadena, que se puede auditar, verificar y liquidar. En pocas palabras, es la infraestructura de los "bots de IA". == ¿Por qué presté especial atención a este proyecto? == ¡Descubrí que sus desarrolladores son contribuyentes principales de LeRobot, el proyecto de código abierto más popular en el espacio VLA! LeRobot es la base principal para construir modelos VLA en el mundo de código abierto, incluidos VLA livianos como SmolVLA que pueden ejecutarse en computadoras portátiles. Significa que este equipo realmente entiende la arquitectura VlA y entiende el robot. Veo que también continúan construyendo, y el precio de la moneda también está aumentando constantemente, soy muy optimista sobre la pista de VLA, y por la tendencia general, VLA y los robots son de hecho el futuro en el mercado. • Los gigantes de Web2 (Google, Meta, Tesla) están actualmente totalmente comprometidos con la formación de VLA y bots; • Los proyectos Web3 rara vez tienen aplicaciones VLA que puedan realizar tareas, y todavía son muy escasas • Los VLA tienen la oportunidad de desempeñar un gran valor en escenarios como DePIN, automatización web, ejecución de agentes de IA en cadena, etc. CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump Siempre DYOR。
CodecFlow
CodecFlow26 jun 2025
¿Qué es un operador $CODEC? Es donde los modelos de Visión-Lenguaje-Acción finalmente hacen que la IA sea útil para el trabajo real. Un operador es un agente de software autónomo impulsado por modelos VLA que realiza tareas a través de un ciclo continuo de percepción-razón-acción. Los LLM pueden pensar y hablar brillantemente, pero no pueden señalar, hacer clic o agarrar nada. Son motores de razonamiento puro sin base en el mundo físico. Los VLA combinan la percepción visual, la comprensión del lenguaje y la salida de acciones estructuradas en un solo paso hacia adelante. Mientras que un LLM describe lo que debería suceder, un modelo VLA en realidad lo hace realidad emitiendo coordenadas, señales de control y comandos ejecutables. El flujo de trabajo del operador es: - Percepción: captura capturas de pantalla, transmisiones de cámaras o datos de sensores. - Razonamiento: procesa observaciones junto con instrucciones en lenguaje natural utilizando el modelo VLA. - Acción: ejecuta decisiones a través de interacciones de interfaz de usuario o control de hardware, todo en un bucle continuo. Ejemplos: LLM vs. modelo de operador impulsado por VLA Programar una reunión LLM: Proporciona una explicación detallada de la gestión del calendario, describiendo los pasos para programar una reunión. Operador con modelo VLA: - Captura el escritorio del usuario. - Identifica la aplicación de calendario (por ejemplo, Outlook, Google Calendar). - Navega al jueves, crea una reunión a las 2 p. m. y agrega asistentes. - Se adapta automáticamente a los cambios en la interfaz de usuario. Robótica: Clasificación de objetos LLM: Genera instrucciones escritas precisas para clasificar objetos, como identificar y organizar componentes rojos. Operador con modelo VLA: - Observa el espacio de trabajo en tiempo real. - Identifica los componentes rojos entre los objetos mixtos. - Planifica trayectorias sin colisiones para un brazo robótico. - Ejecuta operaciones de pick-and-place, ajustándose dinámicamente a nuevas posiciones y orientaciones. Los modelos VLA finalmente cierran la brecha entre la IA que puede razonar sobre el mundo y la IA que realmente puede cambiarlo. Son los que transforman la automatización de un frágil seguimiento de reglas a una resolución adaptativa de problemas: trabajadores inteligentes. "Los scripts tradicionales se rompen cuando cambia el entorno, pero los operadores utilizan la comprensión visual para adaptarse en tiempo real, manejando excepciones en lugar de bloquearse en ellas".
11,22K