Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ein massives Open-Source-Grundlagenmodell-Training, das von @_xjdr freigeschaltet wurde
XJDR ist ein verrückter Wissenschaftler, also brauchte ich ein paar Durchgänge, um es wirklich zu verstehen, und ich könnte immer noch das gesamte Ergebnis nicht vollständig schätzen.
Normalerweise, wenn man ein brandneues Basis-Modell von Grund auf trainieren möchte, benötigt man eine Menge GPUs, nur um einen ernsthaften Trainingslauf in Gang zu bringen. Es ist teuer.
Eine der schwierigsten Arten zu trainieren ist das DeepSeek-Stil Mixture of Experts-Design. Es ist leistungsstark, aber das Routing-System und die Trainingskonfiguration sind so heikel, dass kleine Tests oft scheitern. Also benötigt man einen großen Cluster, nur um irgendetwas zu lernen, und wenn ein Lauf fehlschlägt, kann man nicht sagen, ob die Idee falsch war oder ob die Konfiguration einfach kaputt gegangen ist, sodass die Forschung stirbt und man nichts lernt.
XJDR macht nmoe Open Source, eine betriebsbereite Trainingsfabrik, die so verkabelt ist, wie es ein Experte tun würde, speziell damit diese Klasse von Modellen auf einer einzigen Maschine ohne ständige Ausfälle trainiert und erforscht werden kann. Kleine Experimente verhalten sich wie echtes Training, sodass man ein klares Ja oder Nein bekommt, bevor man achtstellige Beträge und Monate an Zeit investiert.
In Wirklichkeit können die Leute günstige, schnelle Versuche durchführen, bei denen man jeweils eine Sache ändert, wie zum Beispiel, wie das Routing des Modells zwischen Spezialisten funktioniert, wie es lernt (Trainingsrezept), welche Daten man ihm zuführt und wie man mehr Qualität pro Dollar herausquetscht. Man testet im Grunde neue Ideen für bessere Basis-Modelle auf die gleiche Weise, wie man ein Produkt A/B testet, aber man kann es außerhalb eines großen Labors tun.
Die Nettoauswirkung ist schnellere Iteration und erhebliche Kosteneinsparungen, plus mehr Teams können realistisch neue Grundlagenmodelle entwickeln. Das kann ein besseres DeepSeek-Klassenmodell, brandneue Spezialisten-Modelle und viel mehr Wettbewerb und offene Forschung bedeuten, weil die Eintrittsgebühr stark sinkt und mehr Durchbrüche öffentlich geschehen.
Bleiben Sie dran, er macht den Großteil davon Open Source!
Herzlichen Glückwunsch @_xjdr. Wir freuen uns sehr, Sie zu unterstützen und ein kleiner Teil Ihrer Geschichte zu sein.
Top
Ranking
Favoriten
