介绍 Parallax,这是第一个完全分布式的推理和服务引擎,专为大型语言模型而设计。 立即尝试: 🧵
人工智能正面临瓶颈。 大型语言模型正在重塑我们的思维、构建和创造方式,但它们对令牌的需求超出了集中基础设施所能提供的能力。芯片饱和;电网紧张;智能仍然被锁在高成本的孤岛中。 我们需要一个新的范式。
Parallax将模型推理重新构想为一个全球协作的过程,在这个过程中,模型不再依赖于集中式基础设施,而是通过全球计算网络进行重新组合、执行和验证。
该引擎引入了三个基础性转变: – 智能主权:从您信任的硬件提供模型 – 可组合推理:GPU、Apple Silicon、桌面和谐工作 – 潜在计算:激活进入世界未开发的计算
Parallax Runtime Layer 是高吞吐量、服务器端 LLM 服务的核心调度引擎,适用于分布式异构网络。 它提供了服务器级的优化——从持续批处理到分页 KV 缓存——并且是第一个基于 MLX 的框架,能够在 Apple Silicon 上实现专业级推理。 通过将 NVIDIA GPU 和 Apple 设备统一为一个计算架构,Parallax 将无摩擦的去中心化 AI 带给每个人。
Parallax 运行在一种称为 Swarm 的分布式架构上:这是一个动态的节点网络,协同服务于 LLMs。 每个提示在异构节点上处理,每个节点处理模型的一部分。 结果:实时推理是去中心化的、流畅的,并且可验证的。
与 Petals(类似 BitTorrent 的服务)相比,Parallax 在 2× RTX 5090s 上运行 Qwen2.5-72B 实现了: – 3.1 倍更低的端到端延迟,5.3 倍更快的跨令牌延迟 – 2.9 倍更快的首次令牌时间,3.1 倍更高的 I/O 吞吐量 结果一致,并显示出在不同输入配置下的良好可扩展性,而这仅仅是个开始。
现在直播:一个完全由Parallax驱动的聊天机器人。 每个响应都是点对点生成的,没有涉及集中式服务器。 体验去中心化的LLM推理:
群体正在壮大。 申请加入边缘主机试点计划,以扩展世界的智能:
67.95K