Présentation de Parallax, le premier moteur d’inférence et de service entièrement distribué pour les grands modèles de langage. Essayez-le maintenant : 🧵
L'IA atteint un goulot d'étranglement. Les LLM redéfinissent notre façon de penser, de construire et de créer, mais leur demande en tokens dépasse ce que l'infrastructure centralisée peut fournir. Les puces sont saturées ; les réseaux électriques sont sous pression ; l'intelligence reste enfermée derrière des silos coûteux. Nous avons besoin d'un nouveau paradigme.
Parallax réinvente l'inférence de modèle comme un processus global et collaboratif, où les modèles ne sont plus liés à une infrastructure centralisée, mais sont plutôt recomposés, exécutés et vérifiés à travers un maillage global de calcul.
Le moteur introduit 3 changements fondamentaux : – Souveraineté de l'intelligence : servir des modèles à partir du matériel en lequel vous avez confiance – Inférence composable : GPU, Apple Silicon, ordinateurs de bureau travaillant en harmonie – Calcul latent : activer le potentiel de la puissance de calcul inexploitée du monde
La couche d'exécution Parallax est le moteur d'orchestration central pour le service LLM côté serveur à haut débit à travers des réseaux distribués et hétérogènes. Elle offre des optimisations de niveau serveur, allant du traitement par lots continu à la mise en cache KV paginée, et est le premier cadre basé sur MLX à permettre une inférence de qualité professionnelle sur Apple Silicon. En unifiant les GPU NVIDIA et les appareils Apple en un seul tissu de calcul, Parallax apporte une IA décentralisée sans friction à tout le monde.
Parallax fonctionne sur une architecture distribuée appelée le Swarm : un réseau dynamique de nœuds qui servent collaborativement des LLMs. Chaque prompt est traité à travers des nœuds hétérogènes, chacun gérant un segment du modèle. Le résultat : une inférence en temps réel qui est décentralisée, fluide et vérifiable.
Par rapport à Petals (service de style BitTorrent), Parallax exécutant Qwen2.5-72B sur 2× RTX 5090 a obtenu : – 3,1 × latence de bout en bout plus faible, 5,3 × latence inter-token plus rapide – Délai de premier jeton 2,9 × plus rapide, débit d’E/S supérieur de 3,1 × Les résultats ont été cohérents et ont montré une grande évolutivité dans différentes configurations d’entrée, et ce n’est que le début.
Maintenant en direct : un chatbot entièrement alimenté par Parallax. Chaque réponse est générée de pair à pair sans serveur centralisé impliqué. Découvrez l'inférence LLM décentralisée :
L'essaim grandit. Postulez pour rejoindre le programme pilote Edge Host afin d'élever l'intelligence du monde :
67,97K