Masivní open source odemknutí základního modelu pro trénink od @_xjdr XJDR je šílený vědec, takže mi trvalo pár pokusů, než jsem to opravdu pochopil, a pořád možná neocením celý výsledek. Normálně, pokud chcete trénovat úplně nový základní model od nuly, potřebujete spoustu GPU, abyste mohli rozjet seriózní tréninkový běh. Je to drahé. Jedním z nejtěžších typů je DeepSeek styl Mix of Expert design. Je výkonný, ale systém směrování a tréninkové nastavení jsou tak složité, že malé testy často selžou. Takže nakonec potřebujete velký cluster, abyste se něco naučili, a když běh selže, nemůžete poznat, jestli byl váš nápad špatný, nebo jestli se nastavení prostě pokazilo, takže výzkum zemře a nic se nenaučíte XJDR je open source nmoe, připravená tréninková továrna zapojená tak, jak by to udělal expert, konkrétně proto, aby tuto třídu modelů bylo možné trénovat a zkoumat na jednom stroji bez neustálého přerušování. Malé experimenty fungují jako opravdový trénink, takže můžete získat jasné ano nebo ne, než utratíte osm cifer a měsíce času. Ve skutečnosti lidé mohou spouštět levné, rychlé testy, kde měníte jednu věc po druhé, například jak fungují modelové trasy mezi specialisty, jak se učí (tréninková receptura), jaká data mu zadáváte a jak vymáčknout více kvality za dolar. V podstatě testujete nové nápady na lepší základní modely podobně jako byste testovali produkt A/B, ale můžete to dělat i mimo velkou laboratoř. Čistý dopad je rychlejší iterace a výrazné úspory nákladů, navíc více týmů může realisticky vytvářet nové modely základů. To může znamenat lepší model třídy DeepSeek, nové specializované modely a mnohem větší konkurenci a otevřený výzkum, protože vstupní poplatek výrazně klesá a více průlomů se odehrává na veřejnosti Sledujte nás, většinu z toho je open source! Gratuluji @_xjdr. Jsme velmi rádi, že vás můžeme podpořit a být malou součástí vašeho příběhu