一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

介绍 Parallax，这是第一个完全分布式的推理和服务引擎，专为大型语言模型而设计。立即尝试： 🧵

人工智能正面临瓶颈。大型语言模型正在重塑我们的思维、构建和创造方式，但它们对令牌的需求超出了集中基础设施所能提供的能力。芯片饱和；电网紧张；智能仍然被锁在高成本的孤岛中。我们需要一个新的范式。

Parallax将模型推理重新构想为一个全球协作的过程，在这个过程中，模型不再依赖于集中式基础设施，而是通过全球计算网络进行重新组合、执行和验证。

该引擎引入了三个基础性转变： – 智能主权：从您信任的硬件提供模型 – 可组合推理：GPU、Apple Silicon、桌面和谐工作 – 潜在计算：激活进入世界未开发的计算

Parallax Runtime Layer 是高吞吐量、服务器端 LLM 服务的核心调度引擎，适用于分布式异构网络。它提供了服务器级的优化——从持续批处理到分页 KV 缓存——并且是第一个基于 MLX 的框架，能够在 Apple Silicon 上实现专业级推理。通过将 NVIDIA GPU 和 Apple 设备统一为一个计算架构，Parallax 将无摩擦的去中心化 AI 带给每个人。

Parallax 运行在一种称为 Swarm 的分布式架构上：这是一个动态的节点网络，协同服务于 LLMs。每个提示在异构节点上处理，每个节点处理模型的一部分。结果：实时推理是去中心化的、流畅的，并且可验证的。

与 Petals（类似 BitTorrent 的服务）相比，Parallax 在 2× RTX 5090s 上运行 Qwen2.5-72B 实现了： – 3.1 倍更低的端到端延迟，5.3 倍更快的跨令牌延迟 – 2.9 倍更快的首次令牌时间，3.1 倍更高的 I/O 吞吐量结果一致，并显示出在不同输入配置下的良好可扩展性，而这仅仅是个开始。

现在直播：一个完全由Parallax驱动的聊天机器人。每个响应都是点对点生成的，没有涉及集中式服务器。体验去中心化的LLM推理：

群体正在壮大。申请加入边缘主机试点计划，以扩展世界的智能：

67.95K