Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Masivní odemknutí infrastruktury od zakladatele @_xjdr.
XJDR je šílený vědec, takže mi trvalo několikrát to pochopit (a stále si myslím, že asi plně nechápu jeho potenciál).
Kompletně přepisuje tréninkový stack pro modely Mixture of Experts MoE (architektura za DeepSeek) pro výzkumníky s omezeným výpočetním výkonem (tj. svět mimo hyperscalery)
Normálně trénování těchto řídkých modelů vyžaduje obrovské shluky a je velmi nestabilní. XJDR vytvořil nový stack od základu, aby byl efektivní už na jednom uzlu
Standardní infrastruktura: Vyžaduje obrovské GPU clustery (často nestabilní)
XJDR stack: Předvídatelné škálování na jedné GPU až na 8 GPU uzlů.
Nuance je v tom, že místo toho, aby se spoléhal na hrubou sílu výpočtů k vyhlazení chyb, vyřešil specifické inženýrské úzká místa jako kolaps routeru, aby byl trénink s mírnou přesností stabilní na malém hardwaru.
Také vybudoval datový pipeline na úrovni frontier, kde 120B orákulové modely hodnotí data, aby menší modely učily rychleji.
Stručně: Otevírá zdrojový kód celého továrního repozitáře, datových nástrojů a vah, aby demokratizoval výzkumné schopnosti na úrovni Googlu pro jednotlivce.
Gratuluji @_xjdr. Jsme nadšení, že můžeme být malou součástí vaší cesty. Dá se říct, že jsem nesmírně nadšený, že se podělíte o svou práci
Top
Hodnocení
Oblíbené
