Estos días he sentido que la liquidez de primer nivel es mucho peor que antes. Ya sea en la segunda fase o en el mercado interno, parece que es mucho más difícil jugar... Pero el precio del token Codec sigue siendo muy estable en 30M, todavía tengo una parte de mi posición, y me siento bastante tranquilo al respecto, principalmente porque recientemente la pista de robots en web2 está realmente caliente. A continuación, hay algunas noticias recientes que expresan que lo siguiente en AI es Robot Meta. • Recientemente, un científico investigador clave de Hugging Face, Remi Cadene, está en conversaciones para recaudar alrededor de 40 millones de dólares en una ronda de semillas para su startup de robots "Uma" ubicada en París. • Este tipo de empresas de desarrollo de robots son muy apreciadas por los inversores; actualmente, la financiación en el campo de los robots a nivel mundial ha superado los 16 mil millones de dólares en 2025, acercándose al total de 17.2 mil millones de dólares del año pasado. Sigo teniendo buenas expectativas sobre Codec, después de todo, el desarrollador de Codec es un contribuyente muy importante de VLAs de código abierto y, además, es alguien que realmente entiende la pista de robots en web3. Últimamente he estado ocupado manejando asuntos en casa, pero aún así me esfuerzo por ganar un poco de activos cada día, y sigo alcanzando poco a poco el ATH. He apostado muy poco en WLFI, pero en realidad no estoy muy ansioso esta vez; con una mentalidad tranquila, me conformo con ganar un poco cada día. Por cierto, yo mismo creé rápidamente un sitio web de estadísticas diarias de activos, personalmente creo que es muy útil. He dejado el enlace de Github en los comentarios; simplemente descárgalo en tu computadora y abre el index para usar el sitio.
CodecFlow
CodecFlow22 ago, 18:03
Los VLAs todavía son muy nuevos y muchas personas encuentran difícil entender la diferencia entre los VLAs y los LLMs. Aquí hay un análisis profundo de cómo estos sistemas de IA difieren en razonamiento, percepción y acción. Parte 1. Desglosemos las principales distinciones y cómo los agentes de IA envueltos en un LLM difieren de los agentes operativos que utilizan modelos VLA: 1. Percepción: Cómo perciben el mundo Agente (LLM): Procesa texto o datos estructurados, por ejemplo, JSON, APIs y a veces imágenes. Es como un cerebro que trabaja con entradas limpias y abstractas. Piensa en leer un manual o analizar una hoja de cálculo. Genial para entornos estructurados, pero limitado por lo que se le alimenta. Operador (VLA): Ve píxeles en bruto y en tiempo real de cámaras, además de datos de sensores (por ejemplo, tacto, posición) y propriocepción (autoconciencia del movimiento). Es como navegar por el mundo con ojos y sentidos, prosperando en entornos dinámicos y desordenados como interfaces de usuario o espacios físicos. 2. Actuar: Cómo interactúan Agente: Actúa llamando funciones, herramientas o APIs. Imagínalo como un gerente que envía instrucciones precisas como “reserva un vuelo a través de la API de Expedia.” Es deliberado pero depende de herramientas preconstruidas e interfaces claras. Operador: Ejecuta acciones continuas y de bajo nivel, como mover un cursor de ratón, escribir o controlar las articulaciones de un robot. Es como un trabajador hábil manipulando directamente el entorno, ideal para tareas que requieren precisión en tiempo real. 3. Control: Cómo toman decisiones Agente: Sigue un ciclo lento y reflexivo: planificar, llamar a una herramienta, evaluar el resultado, repetir. Está limitado por tokens (limitado por el procesamiento de texto) y por la red (esperando respuestas de la API). Esto lo hace metódico pero lento para tareas en tiempo real. Operador: Opera, tomando decisiones paso a paso en un ciclo de retroalimentación ajustado. Piensa en un jugador reaccionando instantáneamente a lo que hay en la pantalla. Esta velocidad permite una interacción fluida pero exige un procesamiento robusto en tiempo real. 4. Datos para aprender: Qué alimenta su entrenamiento Agente: Entrenado en vastos corpus de texto, instrucciones, documentación o conjuntos de datos RAG (Generación Aumentada por Recuperación). Aprende de libros, código o preguntas frecuentes, destacándose en el razonamiento sobre conocimiento estructurado. Operador: Aprende de demostraciones (por ejemplo, videos de humanos realizando tareas), registros de teleoperación o señales de recompensa. Es como aprender observando y practicando, perfecto para tareas donde las instrucciones explícitas son escasas. 5. Modos de fallo: Dónde se rompen Agente: Propenso a la alucinación (inventar respuestas) o a planes de largo plazo frágiles que se desmoronan si un paso falla. Es como un estratega que sobrepiensa o malinterpreta la situación. Operador: Enfrenta un cambio de covariables (cuando los datos de entrenamiento no coinciden con las condiciones del mundo real) o errores acumulativos en el control (pequeños errores que se agravan). Es como un conductor perdiendo el control en una carretera desconocida. 6. Infraestructura: La tecnología detrás de ellos Agente: Depende de un prompt/router para decidir qué herramientas llamar, un registro de herramientas para funciones disponibles y memoria/RAG para contexto. Es una configuración modular, como un centro de comando orquestando tareas. Operador: Necesita tuberías de ingestión de video, un servidor de acciones para control en tiempo real, un escudo de seguridad para prevenir acciones dañinas y un búfer de reproducción para almacenar experiencias. Es un sistema de alto rendimiento construido para entornos dinámicos. 7. Dónde brilla cada uno: Sus puntos fuertes Agente: Domina en flujos de trabajo con APIs limpias (por ejemplo, automatización de procesos empresariales), razonamiento sobre documentos (por ejemplo, resumiendo informes) o generación de código. Es tu opción preferida para tareas estructuradas y de alto nivel. Operador: Destaca en entornos desordenados y sin APIs, como navegar por interfaces de usuario torpes, controlar robots o abordar tareas similares a juegos. Si implica interacción en tiempo real con sistemas impredecibles, el VLA es el rey. 8. Modelo mental: Planificador + Ejecutante Piensa en el Agente LLM como el planificador: descompone tareas complejas en objetivos claros y lógicos. El Operador VLA es el ejecutante, llevando a cabo esos objetivos interactuando directamente con píxeles o sistemas físicos. Un verificador (otro sistema o agente) monitorea los resultados para asegurar el éxito. $CODEC
39,16K