Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Einführung von Parallax, der ersten vollständig verteilten Inferenz- und Servicemotor für große Sprachmodelle.
Probieren Sie es jetzt aus: 🧵
KI erreicht einen Engpass.
LLMs verändern, wie wir denken, bauen und kreieren, aber ihre Nachfrage nach Tokens übersteigt das, was zentrale Infrastrukturen liefern können. Chips gesättigt; Stromnetze belastet; Intelligenz bleibt hinter hochpreisigen Silos verschlossen.
Wir brauchen ein neues Paradigma.
Parallax stellt die Modellinferenz als einen globalen, kollaborativen Prozess neu dar, bei dem Modelle nicht mehr an zentrale Infrastrukturen gebunden sind, sondern stattdessen über ein globales Netzwerk von Rechenressourcen neu zusammengesetzt, ausgeführt und verifiziert werden.
Die Engine führt 3 grundlegende Veränderungen ein:
– Intelligenz-Souveränität: Modelle von der Hardware bereitstellen, der Sie vertrauen
– Komponierbare Inferenz: GPUs, Apple Silicon, Desktops arbeiten harmonisch zusammen
– Latente Berechnung: Aktivierung in die ungenutzte Rechenleistung der Welt
Die Parallax Runtime Layer ist die zentrale Orchestrierungs-Engine für hochgradige, serverseitige LLM-Bereitstellung über verteilte, heterogene Netzwerke.
Sie bietet serverseitige Optimierungen – von kontinuierlichem Batching bis hin zu paged KV-Cache – und ist das erste MLX-basierte Framework, das professionelle Inferenz auf Apple Silicon ermöglicht.
Durch die Vereinheitlichung von NVIDIA GPUs und Apple-Geräten in einem einzigen Rechenverbund bringt Parallax reibungslose dezentrale KI für alle.
Parallax basiert auf einer verteilten Architektur namens Swarm: einem dynamischen Netzwerk von Knoten, die gemeinsam LLMs bereitstellen.
Jeder Prompt wird über heterogene Knoten verarbeitet, wobei jeder einen Teil des Modells bearbeitet.
Das Ergebnis: Echtzeitinferenz, die dezentralisiert, flüssig und überprüfbar ist.
Im Vergleich zu Petals (BitTorrent-ähnliches Serving) erzielte Parallax, das Qwen2.5-72B auf 2× RTX 5090s ausführt:
– 3,1× niedrigere End-to-End-Latenz, 5,3× schnellere Inter-Token-Latenz
– 2,9× schnellere Zeit bis zum ersten Token, 3,1× höherer I/O-Durchsatz
Die Ergebnisse waren konsistent und zeigten eine großartige Skalierbarkeit über verschiedene Eingabekonfigurationen hinweg, und das ist erst der Anfang.
Jetzt live: ein Chatbot, der vollständig von Parallax betrieben wird.
Jede Antwort wird peer-to-peer generiert, ohne dass ein zentraler Server beteiligt ist.
Erleben Sie dezentrale LLM-Inferenz:
Der Schwarm wächst.
Bewerben Sie sich, um dem Edge Host Pilotprogramm beizutreten und die Intelligenz der Welt zu skalieren:
67,96K
Top
Ranking
Favoriten