PUMP 公售结束了,原本我也是大额在Bybit,链上只放1/2,最后只有链上的打成功,还好没有提前套保... 话说最近AI社群上很多人在讨论 VLA(Vision-Language-Action) 特别去研究了一下链上项目有没有人在做VLA相关的,看到了这个CodecFlow@Codecopenflow的项目,买了一点。 == CodecFlow这项目在干嘛 == 简单介绍一下VLA,VLA 是一种让 AI 不只「能说」,而是「能做」的模型架构。 传统的 LLM(像 GPT)只能理解语言、提供建议,但它不会动手作、不会点击画面、不会抓取物体。 VLA 模型的意思就是整合了三大能力: 1. Vision(视觉):看得懂画面、截图、摄像机输入或传感器数据 2. Language(语言):理解人类的自然语言指令 3. Action(动作):产生可执行的指令,如鼠标点击、键盘输入、控制机械手臂 CodecFlow 他们就是在做链上的VLA,所有作流程还可以上链,可审计、可验证、可结算。 简单来说就是 “AI 机器人” 的基础架构。 == 为什么我会特别注意这项目? == 我发现他们的开发者是 VLA 领域最火开源项目 LeRobot 的核心贡献者! LeRobot 就是开源界打造 VLA 模型的顶级基地,包含了 SmolVLA 等能在笔电上跑的轻量 VLA。 代表这团队是真的懂VlA架构懂Robot的。 我看他们也持续的在建设,币价也稳定的在上涨,我自己是很看好VLA赛道,而且从整体趋势来看VLA跟机器人在市场上确实是未来。 • Web2 巨头(Google、Meta、Tesla)目前已全力投入 VLA & 机器人训练; • Web3 项目好少有能执行任务的 VLA 应用还非常稀缺 • VLA 有机会在 DePIN、Web Automation、链上 AI Agent 执行等场景发挥巨大价值。 CA:69LjZUUzxj3Cb3Fxeo1X4QpYEQTboApkhXTysPpbpump Always DYOR。
CodecFlow
CodecFlow2025年6月26日
什么是$CODEC运算符? 这是视觉-语言-行动模型最终使人工智能对实际工作有用的地方。 操作员是由 VLA 模型提供支持的自主软件代理,它通过连续的感知-推理-行为循环执行任务。 法学硕士可以出色地思考和说话,但他们无法指向、点击或抓住任何东西。它们是纯粹的推理引擎,对物理世界没有任何基础。 VLA 将视觉感知、语言理解和结构化动作输出结合在单个前向传递中。虽然 LLM 描述了应该发生的事情,但 VLA 模型实际上通过发出坐标、控制信号和可执行命令来实现它。 操作员工作流为: - 感知:捕获屏幕截图、相机源或传感器数据。 - 推理:使用 VLA 模型处理观察结果和自然语言指令。 -作:通过 UI 交互或硬件控制执行决策——所有这些都在一个连续的循环中完成。 示例:LLM 与由 VLA 模型提供支持的运营商 安排会议 法学硕士:提供日历管理的详细说明,概述安排会议的步骤。 VLA 型号的运营商: - 捕获用户的桌面。 - 标识日历应用程序(例如 Outlook、Google 日历)。 - 导航到星期四,在下午 2 点创建会议,并添加与会者。 - 自动适应用户界面的变化。 机器人技术:对物体进行分类 法学硕士:生成用于对对象进行排序的精确书面指令,例如识别和组织红色组件。 VLA 型号的运营商: - 实时观察工作空间。 - 识别混合对象中的红色成分。 - 为机械臂规划无碰撞轨迹。 - 执行拾取和放置作,动态调整到新的位置和方向。 VLA 模型最终弥合了能够推理世界的人工智能和能够真正改变世界的人工智能之间的差距。他们将自动化从脆弱的规则遵循转变为自适应的问题解决——智能工人。 “传统脚本在环境变化时会中断,但 Operator 使用视觉理解来实时适应,处理异常而不是崩溃。”
11.2K