分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

Parallaxは、大規模言語モデル向けの初の完全分散推論およびサービスエンジンです。今すぐお試しください: 🧵

AIはボトルネックに達しています。 LLMは、私たちの考え方、構築、創造の方法を再形成していますが、トークンに対する彼らの需要は、中央集権的なインフラが提供できるものを上回っています。チップが飽和しています。電力網が逼迫しています。インテリジェンスは、高コストのサイロの背後に閉じ込められたままです。私たちには新しいパラダイムが必要です。

Parallax は、モデル推論をグローバルなコラボレーションプロセスとして再考し、モデルが中央集権的なインフラストラクチャにチェーンされなくなり、代わりにコンピューティングのグローバルメッシュ全体で再構成、実行、検証されます。

このエンジンは、3つの基本的なシフトを導入しています。 – インテリジェンス主権:信頼できるハードウェアからモデルを提供 – コンポーザブル推論: GPU、Apple Silicon、デスクトップが調和して動作 – Latent compute:世界の未開発のコンピューティングに活性化します

Parallax ランタイムレイヤーは、分散した異種ネットワーク全体で高スループットのサーバー側 LLM サービスを提供するためのコアオーケストレーションエンジンです。連続バッチ処理からページングKVキャッシュまで、サーバーグレードの最適化を実現し、Apple Siliconでプロフェッショナルグレードの推論を可能にする初のMLXベースのフレームワークです。 NVIDIA GPU と Apple デバイスを 1 つのコンピューティングファブリックに統合することで、Parallax は摩擦のない分散型 AI をすべての人に提供します。

Parallax は、Swarm と呼ばれる分散アーキテクチャ (LLM に協力してサービスを提供するノードの動的ネットワーク) で実行されます。各プロンプトは異種ノード間で処理され、それぞれがモデルのセグメントを処理します。その結果、分散化され、流動的で、検証可能なリアルタイムの推論が実現します。

Petals(BitTorrentスタイルのサービング)と比較して、2× RTX 5090sでQwen2.5-72Bを実行したParallaxは、次の成果を達成しました。 – 3.1× 低いエンドツーエンドのレイテンシ、5.3× 速いトークン間レイテンシ – 最初のトークンまでの時間が 2.9× 短縮され、I/O スループットが 3.1× 向上結果は一貫しており、さまざまな入力構成間で優れたスケーラビリティが示されましたが、これはほんの始まりにすぎません。

現在公開中:Parallaxを搭載したチャットボット。すべての応答はピアツーピアで生成され、中央集権的なサーバーは関与しません。分散型LLM推論を体験する:

群れは成長しています。 Edge Host Pilot Programへの参加を申請して、世界のインテリジェンスを拡大しましょう。

67.96K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable