トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Parallaxは、大規模言語モデル向けの初の完全分散推論およびサービスエンジンです。
今すぐお試しください: 🧵
AIはボトルネックに達しています。
LLMは、私たちの考え方、構築、創造の方法を再形成していますが、トークンに対する彼らの需要は、中央集権的なインフラが提供できるものを上回っています。チップが飽和しています。電力網が逼迫しています。インテリジェンスは、高コストのサイロの背後に閉じ込められたままです。
私たちには新しいパラダイムが必要です。
Parallax は、モデル推論をグローバルなコラボレーション プロセスとして再考し、モデルが中央集権的なインフラストラクチャにチェーンされなくなり、代わりにコンピューティングのグローバル メッシュ全体で再構成、実行、検証されます。
このエンジンは、3つの基本的なシフトを導入しています。
– インテリジェンス主権:信頼できるハードウェアからモデルを提供
– コンポーザブル推論: GPU、Apple Silicon、デスクトップが調和して動作
– Latent compute:世界の未開発のコンピューティングに活性化します
Parallax ランタイム レイヤーは、分散した異種ネットワーク全体で高スループットのサーバー側 LLM サービスを提供するためのコア オーケストレーション エンジンです。
連続バッチ処理からページングKVキャッシュまで、サーバーグレードの最適化を実現し、Apple Siliconでプロフェッショナルグレードの推論を可能にする初のMLXベースのフレームワークです。
NVIDIA GPU と Apple デバイスを 1 つのコンピューティング ファブリックに統合することで、Parallax は摩擦のない分散型 AI をすべての人に提供します。
Parallax は、Swarm と呼ばれる分散アーキテクチャ (LLM に協力してサービスを提供するノードの動的ネットワーク) で実行されます。
各プロンプトは異種ノード間で処理され、それぞれがモデルのセグメントを処理します。
その結果、分散化され、流動的で、検証可能なリアルタイムの推論が実現します。
Petals(BitTorrentスタイルのサービング)と比較して、2× RTX 5090sでQwen2.5-72Bを実行したParallaxは、次の成果を達成しました。
– 3.1× 低いエンドツーエンドのレイテンシ、5.3× 速いトークン間レイテンシ
– 最初のトークンまでの時間が 2.9× 短縮され、I/O スループットが 3.1× 向上
結果は一貫しており、さまざまな入力構成間で優れたスケーラビリティが示されましたが、これはほんの始まりにすぎません。
現在公開中:Parallaxを搭載したチャットボット。
すべての応答はピアツーピアで生成され、中央集権的なサーバーは関与しません。
分散型LLM推論を体験する:
群れは成長しています。
Edge Host Pilot Programへの参加を申請して、世界のインテリジェンスを拡大しましょう。
67.96K
トップ
ランキング
お気に入り