Apresentando o Parallax, o primeiro motor de inferência e serviço totalmente distribuído para grandes modelos de linguagem. Experimente agora: 🧵
A IA está a atingir um ponto de estrangulamento. Os LLMs estão a remodelar a forma como pensamos, construímos e criamos, mas a sua demanda por tokens está a ultrapassar o que a infraestrutura centralizada pode fornecer. Chips saturados; Redes elétricas sobrecarregadas; A inteligência continua bloqueada atrás de silos de alto custo. Precisamos de um novo paradigma.
O Parallax reimagina a inferência de modelos como um processo global e colaborativo, onde os modelos não estão mais encadeados a uma infraestrutura centralizada, mas são em vez disso recompostos, executados e verificados através de uma malha global de computação.
O motor introduz 3 mudanças fundamentais: – Soberania da inteligência: sirva modelos a partir do hardware em que confia – Inferência composta: GPUs, Apple Silicon, desktops trabalhando em harmonia – Computação latente: ative-se no mundo da computação inexplorada
A Camada de Execução Parallax é o motor de orquestração central para a prestação de LLM de alto rendimento, do lado do servidor, em redes distribuídas e heterogéneas. Ela oferece otimizações de nível servidor—desde agrupamento contínuo até cache KV paginado—e é a primeira estrutura baseada em MLX a permitir inferência de nível profissional em Apple Silicon. Ao unificar GPUs NVIDIA e dispositivos Apple em um único tecido computacional, o Parallax traz IA descentralizada sem atritos para todos.
A Parallax opera numa arquitetura distribuída chamada Swarm: uma rede dinâmica de nós que colaborativamente servem LLMs. Cada prompt é processado através de nós heterogéneos, com cada um a lidar com um segmento do modelo. O resultado: inferência em tempo real que é descentralizada, fluida e verificável.
Comparado com Petals (serviço estilo BitTorrent), o Parallax executando Qwen2.5-72B em 2× RTX 5090s alcançou: – 3.1× menor latência de ponta a ponta, 5.3× mais rápida latência entre tokens – 2.9× mais rápido tempo até o primeiro token, 3.1× maior taxa de I/O Os resultados foram consistentes e mostraram grande escalabilidade em diferentes configurações de entrada, e isso é apenas o começo.
Agora ao vivo: um chatbot totalmente alimentado pelo Parallax. Cada resposta é gerada de forma peer-to-peer, sem servidor centralizado envolvido. Experimente a inferência LLM descentralizada:
A colmeia está a crescer. Candidate-se para se juntar ao Programa Piloto de Edge Host para escalar a inteligência do mundo:
67,97K