En massiv åpen kildekode-grunnlagsmodell for treningsopplåsning av @_xjdr XJDR er en gal vitenskapsmann, så det tok meg noen runder å virkelig forstå det, og jeg kan fortsatt ikke helt sette pris på hele resultatet. Vanligvis, hvis du vil trene en helt ny basismodell fra bunnen av, trenger du masse GPU-er bare for å få en seriøs treningskjøring i gang. Det er dyrt. En av de vanskeligste typene å trene er DeepSeek Style Mix of Professionals-design. Det er kraftig, men rutingsystemet og treningsoppsettet er så pirkete at småskala tester ofte faller fra hverandre. Så du ender opp med å trenge en stor klynge bare for å lære noe, og når en gjennomspilling mislykkes, kan du ikke vite om ideen din var feil eller om oppsettet bare brøt sammen, så forskningen dør og du lærer ingenting XJDR er åpen kildekode-NMOE, en ferdig treningsfabrikk koblet slik en ekspert ville gjort det, spesielt slik at denne klassen av modeller kan trenes og forskes på på én enkelt maskin uten konstant brudd. Små eksperimenter oppfører seg som ekte trening, så du kan få et rent ja eller nei før du bruker åttesifret og flere måneders tid. I virkeligheten kan folk kjøre billige, raske tester hvor du endrer én ting om gangen, som hvordan modellrutene fungerer mellom spesialister, hvordan den lærer (treningsoppskrift), hvilke data du mater den med, og hvordan du presser ut mer kvalitet per dollar. Du stresstester i praksis nye ideer for bedre basismodeller på samme måte som du ville A/B-testet et produkt, men du kan gjøre det utenfor et stort laboratorium. Nettoeffekten er raskere iterasjon og store kostnadsbesparelser, i tillegg til at flere team realistisk kan bygge nye grunnlagsmodeller. Det kan bety en bedre DeepSeek-klassemodell, helt nye spesialmodeller, og mye mer konkurranse og åpen forskning fordi inngangsavgiften faller kraftig og flere av gjennombruddene skjer offentlig Følg med, han åpner det meste av det meste! Gratulerer @_xjdr. Vi er veldig glade for å støtte deg og være en liten del av din historie