Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentamos Parallax, el primer motor de inferencia y servicio totalmente distribuido para grandes modelos de lenguaje.
Pruébalo ahora: 🧵
La IA está alcanzando un punto crítico.
Los LLM están transformando la forma en que pensamos, construimos y creamos, pero su demanda de tokens está superando lo que la infraestructura centralizada puede ofrecer. Chips saturados; Redes eléctricas tensadas; La inteligencia sigue encerrada detrás de silos de alto costo.
Necesitamos un nuevo paradigma.
Parallax reimagina la inferencia de modelos como un proceso global y colaborativo, donde los modelos ya no están encadenados a una infraestructura centralizada, sino que se recomponen, ejecutan y verifican a través de una malla global de computación.
El motor introduce 3 cambios fundamentales:
– Soberanía de la inteligencia: sirve modelos desde el hardware en el que confías
– Inferencia componible: GPUs, Apple Silicon, escritorios trabajando en armonía
– Cómputo latente: activa el cómputo no aprovechado del mundo
La Capa de Ejecución Parallax es el motor de orquestación central para el servicio de LLM de alto rendimiento en redes distribuidas y heterogéneas.
Ofrece optimizaciones de nivel servidor, desde el procesamiento por lotes continuo hasta la caché KV paginada, y es el primer marco basado en MLX que permite inferencias de calidad profesional en Apple Silicon.
Al unificar las GPU de NVIDIA y los dispositivos de Apple en una única estructura de computación, Parallax lleva la IA descentralizada sin fricciones a todos.
Parallax funciona en una arquitectura distribuida llamada Swarm: una red dinámica de nodos que colaborativamente sirven LLMs.
Cada solicitud se procesa a través de nodos heterogéneos, cada uno manejando un segmento del modelo.
El resultado: inferencia en tiempo real que es descentralizada, fluida y verificable.
En comparación con Petals (servicio estilo BitTorrent), Parallax ejecutando Qwen2.5-72B en 2× RTX 5090s logró:
– 3.1× menor latencia de extremo a extremo, 5.3× más rápida latencia inter-token
– 2.9× más rápido tiempo hasta el primer token, 3.1× mayor rendimiento de I/O
Los resultados fueron consistentes y mostraron una gran escalabilidad a través de diferentes configuraciones de entrada, y esto es solo el comienzo.
Ahora en vivo: un chatbot completamente impulsado por Parallax.
Cada respuesta se genera de manera peer-to-peer sin un servidor centralizado involucrado.
Experimenta la inferencia LLM descentralizada:
La multitud está creciendo.
Aplica para unirte al Programa Piloto de Edge Host para escalar la inteligencia del mundo:
67,97K
Parte superior
Clasificación
Favoritos