Presentamos Parallax, el primer motor de inferencia y servicio completamente distribuido para modelos de lenguaje grandes. Pruébalo ahora: 🧵
La IA está llegando a un cuello de botella. Los LLM están remodelando la forma en que pensamos, construimos y creamos, pero su demanda de tokens está superando lo que la infraestructura centralizada puede ofrecer. Patatas fritas saturadas; Las redes eléctricas se vieron afectadas; La inteligencia permanece encerrada detrás de silos de alto costo. Necesitamos un nuevo paradigma.
Parallax reinventa la inferencia de modelos como un proceso global y colaborativo, en el que los modelos ya no están encadenados a una infraestructura centralizada, sino que se recomponen, ejecutan y verifican a través de una malla global de cómputo.
El motor introduce 3 cambios fundamentales: – Soberanía de inteligencia: sirve modelos desde el hardware en el que confías – Inferencia componible: GPUs, Apple Silicon, ordenadores de sobremesa trabajando en armonía – Computación latente: actívala en la computación sin explotar del mundo
La capa de tiempo de ejecución de Parallax es el motor de orquestación principal para el servicio de LLM del lado del servidor de alto rendimiento a través de redes heterogéneas distribuidas. Ofrece optimizaciones de nivel de servidor, desde el procesamiento continuo por lotes hasta la caché KV paginada, y es el primer marco basado en MLX que permite la inferencia de nivel profesional en Apple Silicon. Al unificar las GPU NVIDIA y los dispositivos Apple en una sola estructura de cómputo, Parallax lleva la IA descentralizada y sin fricciones a todos.
Parallax se ejecuta en una arquitectura distribuida llamada Swarm: una red dinámica de nodos que sirven LLM de forma colaborativa. Cada solicitud se procesa a través de nodos heterogéneos, y cada uno maneja un segmento del modelo. El resultado: inferencia en tiempo real descentralizada, fluida y verificable.
En comparación con Petals (servicio al estilo BitTorrent), Parallax que ejecuta Qwen2.5-72B en 2× RTX 5090 logró: – 3,1× menor latencia de extremo a extremo, 5,3× latencia entre tokens más rápida – Tiempo hasta el primer token un 2,9× más rápido, un rendimiento de E/S un 3,1× más alto Los resultados fueron consistentes y mostraron una gran escalabilidad en diferentes configuraciones de entrada, y esto es solo el comienzo.
Ya en marcha: un chatbot totalmente impulsado por Parallax. Cada respuesta se genera de igual a igual sin ningún servidor centralizado involucrado. Experiencia en inferencia de LLM descentralizado:
El enjambre está creciendo. Solicite unirse al programa piloto de host perimetral para escalar la inteligencia del mundo:
67.96K