Presentamos Parallax, el primer motor de inferencia y servicio totalmente distribuido para grandes modelos de lenguaje. Pruébalo ahora: 🧵
La IA está alcanzando un punto crítico. Los LLM están transformando la forma en que pensamos, construimos y creamos, pero su demanda de tokens está superando lo que la infraestructura centralizada puede ofrecer. Chips saturados; Redes eléctricas tensadas; La inteligencia sigue encerrada detrás de silos de alto costo. Necesitamos un nuevo paradigma.
Parallax reimagina la inferencia de modelos como un proceso global y colaborativo, donde los modelos ya no están encadenados a una infraestructura centralizada, sino que se recomponen, ejecutan y verifican a través de una malla global de computación.
El motor introduce 3 cambios fundamentales: – Soberanía de la inteligencia: sirve modelos desde el hardware en el que confías – Inferencia componible: GPUs, Apple Silicon, escritorios trabajando en armonía – Cómputo latente: activa el cómputo no aprovechado del mundo
La Capa de Ejecución Parallax es el motor de orquestación central para el servicio de LLM de alto rendimiento en redes distribuidas y heterogéneas. Ofrece optimizaciones de nivel servidor, desde el procesamiento por lotes continuo hasta la caché KV paginada, y es el primer marco basado en MLX que permite inferencias de calidad profesional en Apple Silicon. Al unificar las GPU de NVIDIA y los dispositivos de Apple en una única estructura de computación, Parallax lleva la IA descentralizada sin fricciones a todos.
Parallax funciona en una arquitectura distribuida llamada Swarm: una red dinámica de nodos que colaborativamente sirven LLMs. Cada solicitud se procesa a través de nodos heterogéneos, cada uno manejando un segmento del modelo. El resultado: inferencia en tiempo real que es descentralizada, fluida y verificable.
En comparación con Petals (servicio estilo BitTorrent), Parallax ejecutando Qwen2.5-72B en 2× RTX 5090s logró: – 3.1× menor latencia de extremo a extremo, 5.3× más rápida latencia inter-token – 2.9× más rápido tiempo hasta el primer token, 3.1× mayor rendimiento de I/O Los resultados fueron consistentes y mostraron una gran escalabilidad a través de diferentes configuraciones de entrada, y esto es solo el comienzo.
Ahora en vivo: un chatbot completamente impulsado por Parallax. Cada respuesta se genera de manera peer-to-peer sin un servidor centralizado involucrado. Experimenta la inferencia LLM descentralizada:
La multitud está creciendo. Aplica para unirte al Programa Piloto de Edge Host para escalar la inteligencia del mundo:
67,97K