热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

CodecFlow
AI Operators 和 Robotics on @Solana 的执行层
CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump
VLAs 仍然非常新,很多人发现很难理解 VLAs 和 LLMs 之间的区别。
这里深入探讨这些 AI 系统在推理、感知和行动方面的不同。第一部分。
让我们分解关键区别,以及围绕 LLM 包装的 AI 代理与使用 VLA 模型的操作代理之间的不同:
1. 感知:它们如何感知世界
代理(LLM):处理文本或结构化数据,例如 JSON、API,有时还包括图像。就像一个大脑处理干净、抽象的输入。想象一下阅读手册或解析电子表格。适合结构化环境,但受限于输入的数据。
操作员(VLA):从摄像头获取原始实时像素,以及传感器数据(例如触摸、位置)和本体感知(对运动的自我意识)。就像用眼睛和感官在世界中导航,适应动态、混乱的环境,如用户界面或物理空间。
2. 行动:它们如何互动
代理:通过调用函数、工具或 API 来行动。想象它像一个经理发送精确的指令,比如“通过 Expedia API 预订航班。”这是有意的,但依赖于预构建的工具和清晰的接口。
操作员:执行连续的低级动作,如移动鼠标光标、打字或控制机器人关节。就像一个熟练的工人直接操控环境,适合需要实时精确的任务。
3. 控制:它们如何做出决策
代理:遵循一个缓慢的反思循环:计划、调用工具、评估结果、重复。它是受限于令牌(受限于文本处理)和网络(等待 API 响应)。这使得它在实时任务中显得方法论但缓慢。
操作员:在紧密的反馈循环中进行逐步决策。想象一下一个玩家对屏幕上的内容做出即时反应。这种速度使得流畅的互动成为可能,但需要强大的实时处理能力。
4. 学习数据:什么推动它们的训练
代理:在大量文本语料库、指令、文档或 RAG(检索增强生成)数据集上进行训练。它从书籍、代码或常见问题中学习,擅长对结构化知识进行推理。
操作员:从演示(例如人类执行任务的视频)、远程操作日志或奖励信号中学习。就像通过观察和实践学习,适合那些明确指令稀缺的任务。
5. 失败模式:它们的弱点
代理:容易出现幻觉(编造答案)或脆弱的长远计划,如果一步失败就会崩溃。就像一个过度思考或误读情况的战略家。
操作员:面临协变量偏移(当训练数据与真实世界条件不匹配)或控制中的累积错误(小错误积累)。就像一个司机在不熟悉的道路上失去控制。
6. 基础设施:它们背后的技术
代理:依赖于提示/路由器来决定调用哪些工具,工具注册表用于可用功能,以及内存/RAG 用于上下文。这是一个模块化的设置,就像一个指挥中心协调任务。
操作员:需要视频摄取管道、实时控制的动作服务器、安全保护以防止有害行为,以及重放缓冲区来存储经验。这是一个为动态环境构建的高性能系统。
7. 各自的优势:它们的甜蜜点
代理:在具有干净 API 的工作流程中占主导地位(例如,自动化业务流程)、对文档进行推理(例如,总结报告)或代码生成。它是结构化、高级任务的首选。
操作员:在混乱、没有 API 的环境中表现出色,如导航笨重的用户界面、控制机器人或处理游戏般的任务。如果涉及与不可预测系统的实时互动,VLA 是王者。
8. 心智模型:规划者 + 执行者
将 LLM 代理视为规划者:它将复杂任务分解为清晰、逻辑的目标。
VLA 操作员是执行者,通过直接与像素或物理系统互动来执行这些目标。一个检查者(另一个系统或代理)监控结果以确保成功。
$CODEC

17.28K
Codecflow Optr 提供了一种统一的方法来构建能够在数字和物理环境中观察、推理和行动的智能体。无论是自动化桌面工作流程、控制机器人手臂,还是在模拟中进行测试,它都使用相同的思维模型和基本元素。

Louround 🥂8月21日 04:10
在牛市中,回调是值得买入的,尤其是那些有重大催化剂的项目。
我们都知道,人工智能是这一周期的叙事,由ai16z和Virtuals在去年开始。
我认为市场将关注更复杂和更先进的技术,如VLA,让我告诉你原因。
LLM(大型语言模型)主要是读取和写作文本:它们擅长解释、规划和生成指令,但它们本身并不控制电机或与物理世界互动(正如你可能在使用chatgpt时体验到的)。
VLA(视觉语言行动模型)与LLM不同,因为它们是多模态系统,能够观察事物(视觉)、理解指令(语言)并直接产生行动。就像告诉机器人去拿一个红色的杯子,然后它的手臂就会移动去做这件事。
VLA是通过将图像/视频 + 指令 + 实际行动轨迹(机器人实际移动的方式)配对的示例进行训练的,并且它们必须在实时中快速且安全地运行。LLM则是通过大量文本集合进行训练,专注于推理和语言任务。
简而言之,LLM思考和说话,而VLA则观察、推理和行动。
正如你所看到的,VLA是对LLM的重大补充,将显著推动整体经济中0到1的创新,即机器人技术。大多数投资基金正在将大量投资分配到这个被视为人工智能行业下一个逻辑演变的领域。
我之前已经发布了一篇关于加密市场当前领导者@codecopenflow的帖子,该项目没有筹集资金(公平启动),但正在推出尖端产品,目前市值为2300万美元。
作为参考,其他加密竞争者筹集了2000万美元(@openmind_agi),其市值可能在2亿到3亿以上,而尚未建立和推出任何产品或社区。
Codec在该领域成为领先项目的原因在于它们解决了机器人和人工智能中的一个关键瓶颈,即让所有人工智能工具相互互动的困难。让我来解释一下。
他们最新发布的OPTR(操作员)是一个工具包,帮助构建能够在多个平台上互动的操作员,如机器人、桌面、浏览器或模拟。操作员的目标是在数字(计算机)和物理(机器人)世界中观察、推理和行动(VLA)。
这个工具包作为机器人团队的核心基础设施,旨在测试他们的产品并通过提供统一的体验来增强整体过程,而不是为网页浏览器、模拟或机器人提供单独的体验。这本质上使得操作员在其环境中具有适应性和自主性。
所以你明白了,这将为那些之前必须手动完成每一步的公司和开发者节省大量时间,而节省时间就意味着节省金钱。
这也将使Codec能够快速构建自己的操作员项目,并通过他们的市场相对快速地推出新能力。
简而言之:你可能见过机器人折叠纸巾、分类箱子或在各种元素上跳跃的视频。它们都是为这个非常特定的用例进行训练的,不幸的是,一项技能无法像人类那样在另一个环境中重复使用。Codec的OPTR通过使技能在环境和情境之间可转移来解决这个问题,使企业的培训和开发变得更快、更便宜。
这就是Codec在统一数字世界与物理世界方面如此有趣的原因。
$CODEC,Coded.

2.11K
我们很高兴看到中国社区注意到CodecFlow并喜欢我们正在构建的东西。
欢迎你们。我们才刚刚开始。还有更多精彩内容即将到来。

0xFunky2025年7月13日
PUMP 公售结束了,原本我也是大额在Bybit,链上只放1/2,最后只有链上的打成功,还好没有提前套保...
话说最近AI社群上很多人在讨论 VLA(Vision-Language-Action)
特别去研究了一下链上项目有没有人在做VLA相关的,看到了这个CodecFlow@Codecopenflow的项目,买了一点。
== CodecFlow这项目在干嘛 ==
简单介绍一下VLA,VLA 是一种让 AI 不只「能说」,而是「能做」的模型架构。
传统的 LLM(像 GPT)只能理解语言、提供建议,但它不会动手作、不会点击画面、不会抓取物体。
VLA 模型的意思就是整合了三大能力:
1. Vision(视觉):看得懂画面、截图、摄像机输入或传感器数据
2. Language(语言):理解人类的自然语言指令
3. Action(动作):产生可执行的指令,如鼠标点击、键盘输入、控制机械手臂
CodecFlow 他们就是在做链上的VLA,所有作流程还可以上链,可审计、可验证、可结算。
简单来说就是 “AI 机器人” 的基础架构。
== 为什么我会特别注意这项目? ==
我发现他们的开发者是 VLA 领域最火开源项目 LeRobot 的核心贡献者!
LeRobot 就是开源界打造 VLA 模型的顶级基地,包含了 SmolVLA 等能在笔电上跑的轻量 VLA。
代表这团队是真的懂VlA架构懂Robot的。
我看他们也持续的在建设,币价也稳定的在上涨,我自己是很看好VLA赛道,而且从整体趋势来看VLA跟机器人在市场上确实是未来。
• Web2 巨头(Google、Meta、Tesla)目前已全力投入 VLA & 机器人训练;
• Web3 项目好少有能执行任务的 VLA 应用还非常稀缺
• VLA 有机会在 DePIN、Web Automation、链上 AI Agent 执行等场景发挥巨大价值。
CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump
Always DYOR。
3.94K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可