热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
介绍 Parallax,这是第一个完全分布式的推理和服务引擎,专为大型语言模型而设计。
立即尝试: 🧵
人工智能正面临瓶颈。
大型语言模型正在重塑我们的思维、构建和创造方式,但它们对令牌的需求超出了集中基础设施所能提供的能力。芯片饱和;电网紧张;智能仍然被锁在高成本的孤岛中。
我们需要一个新的范式。
Parallax将模型推理重新构想为一个全球协作的过程,在这个过程中,模型不再依赖于集中式基础设施,而是通过全球计算网络进行重新组合、执行和验证。
该引擎引入了三个基础性转变:
– 智能主权:从您信任的硬件提供模型
– 可组合推理:GPU、Apple Silicon、桌面和谐工作
– 潜在计算:激活进入世界未开发的计算
Parallax Runtime Layer 是高吞吐量、服务器端 LLM 服务的核心调度引擎,适用于分布式异构网络。
它提供了服务器级的优化——从持续批处理到分页 KV 缓存——并且是第一个基于 MLX 的框架,能够在 Apple Silicon 上实现专业级推理。
通过将 NVIDIA GPU 和 Apple 设备统一为一个计算架构,Parallax 将无摩擦的去中心化 AI 带给每个人。
Parallax 运行在一种称为 Swarm 的分布式架构上:这是一个动态的节点网络,协同服务于 LLMs。
每个提示在异构节点上处理,每个节点处理模型的一部分。
结果:实时推理是去中心化的、流畅的,并且可验证的。
与 Petals(类似 BitTorrent 的服务)相比,Parallax 在 2× RTX 5090s 上运行 Qwen2.5-72B 实现了:
– 3.1 倍更低的端到端延迟,5.3 倍更快的跨令牌延迟
– 2.9 倍更快的首次令牌时间,3.1 倍更高的 I/O 吞吐量
结果一致,并显示出在不同输入配置下的良好可扩展性,而这仅仅是个开始。
现在直播:一个完全由Parallax驱动的聊天机器人。
每个响应都是点对点生成的,没有涉及集中式服务器。
体验去中心化的LLM推理:
群体正在壮大。
申请加入边缘主机试点计划,以扩展世界的智能:
67.95K
热门
排行
收藏