Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi introduserer Parallax, den første fullt distribuerte slutnings- og serveringsmotoren for store språkmodeller.
Prøv det nå: 🧵
AI når en flaskehals.
LLM-er omformer hvordan vi tenker, bygger og skaper, men etterspørselen deres etter tokens overgår hva sentralisert infrastruktur kan levere. Chips mettet; Strømnett anstrengt; Etterretning forblir låst bak dyre siloer.
Vi trenger et nytt paradigme.
Parallax tenker nytt om modellslutning som en global, samarbeidsprosess, en der modeller ikke lenger er lenket til sentralisert infrastruktur, men i stedet komponeres, kjøres og verifiseres på tvers av et globalt nett av databehandling.
Motoren introduserer 3 grunnleggende skift:
– Etterretningssuverenitet: server modeller fra maskinvaren du stoler på
– Komponerbar slutning: GPUer, Apple Silicon, stasjonære datamaskiner som fungerer i harmoni
– Latent databehandling: aktiver i verdens uutnyttede databehandling
Parallax Runtime Layer er kjerneorkestreringsmotoren for LLM på serversiden med høy gjennomstrømming på tvers av distribuerte, heterogene nettverk.
Det leverer optimaliseringer på tjenernivå – fra kontinuerlig satsvis til sidevekslet KV-buffer – og er det første MLX-baserte rammeverket som muliggjør profesjonelle slutninger på Apple-chiper.
Ved å forene NVIDIA GPU-er og Apple-enheter i ett enkelt databehandlingsstoff, gir Parallax friksjonsfri desentralisert AI til alle.
Parallax kjører på en distribuert arkitektur kalt Swarm: et dynamisk nettverk av noder som i samarbeid betjener LLM-er.
Hver ledetekst behandles på tvers av heterogene noder, der hver håndterer et segment av modellen.
Resultatet: sanntidsslutning som er desentralisert, flytende og verifiserbar.
Sammenlignet med kronblader (servering i BitTorrent-stil), oppnådde Parallax som kjører Qwen2.5-72B på 2× RTX 5090s:
– 3,1× lavere ende-til-ende-ventetid, 5,3× raskere inter-token-ventetid
– 2,9 × raskere tid til første token, 3,1 × høyere I/O-gjennomstrømning
Resultatene var konsistente og viste stor skalerbarhet på tvers av ulike inngangskonfigurasjoner, og dette er bare begynnelsen.
Nå live: en chatbot fullt drevet av Parallax.
Hvert svar genereres peer-to-peer uten sentralisert server involvert.
Opplev desentralisert LLM-slutning:
Svermen vokser.
Søk om å bli med i Edge Host Pilot Program for å skalere verdens intelligens:
67,95K
Topp
Rangering
Favoritter