En massiv öppen källkod grundläggande modellträning av @_xjdr XJDR är en galen vetenskapsman så det tog mig några pass att verkligen förstå det, och jag kanske fortfarande inte riktigt uppskattar hela resultatet. Normalt, om du vill träna en helt ny basmodell från grunden behöver du massor av GPU:er bara för att få igång en seriös träningskörning. Det är dyrt. En av de svåraste typerna att träna är DeepSeek-modellen Mix of Experts. Det är kraftfullt, men routingsystemet och träningsupplägget är så kinkiga att småskaliga tester ofta faller isär. Så du behöver en stor kluster bara för att lära dig något, och när en genomspelning misslyckas kan du inte avgöra om din idé var fel eller om upplägget bara gick sönder så forskningen dör och du lär dig ingenting XJDR är open source nmoe, en färdig träningsfabrik kopplad på det sätt en expert skulle göra, specifikt för att denna modellklass ska kunna tränas och forskas fram på en enda maskin utan ständig avbrott. Små experiment fungerar som riktig träning, så du kan få ett rent ja eller nej innan du spenderar åttasiffrigt och månader av tid. I verkligheten kan folk köra billiga, snabba tester där man ändrar en sak i taget, som hur modellrutterna fungerar mellan specialister, hur den lär sig (träningsrecept), vilken data du matar in och hur du pressar ut mer kvalitet per krona. Du stresstestar i princip nya idéer för bättre basmodeller på samma sätt som du skulle A/B-testa en produkt, men du kan göra det utanför ett stort labb. Nettoeffekten är snabbare iteration och stora kostnadsbesparingar, plus att fler team realistiskt kan bygga nya grundmodeller. Det kan innebära en bättre DeepSeek-klassmodell, helt nya specialistmodeller och mycket mer konkurrens och öppen forskning eftersom anmälningsavgiften sjunker kraftigt och fler genombrott sker offentligt Håll utkik, han gör det mesta öppet källbelopp! Grattis @_xjdr. Vi är mycket glada att stötta dig och vara en liten del av din berättelse