Das Training von LLMs von Anfang bis Ende ist schwierig. Ich freue mich sehr, unseren neuen Blog (Buch?) zu teilen, der die gesamte Pipeline abdeckt: Pre-Training, Post-Training und Infrastruktur. Über 200 Seiten darüber, was funktioniert hat, was nicht und wie man es zuverlässig zum Laufen bringt.
> Der Aufbau eines neuen grundlegenden Modells ist um ein Vielfaches schwieriger als das Feintuning eines offenen Modells und die Optimierung der Inferenz.
Es ist irgendwie verrückt, wie wenig darüber gesprochen wird, dass die meisten Startups (sogar die gut finanzierten) ihre eigenen Grundmodelle nicht entwickeln können und auf die Open-Source-Modelle der chinesischen Labore angewiesen sind..
Der Grund, warum Cursor und Windsurf Modelle veröffentlicht haben, die für Geschwindigkeit optimiert sind, liegt darin, dass es viel machbarer ist, als ein intelligentes, grundlegendes Modell zu entwickeln.
1. Nimm Qwen3 und feineinstelle es über RL auf deinem Harness.
2. Setze es auf Cerebras (oder optimierte GPU) Hardware.
3. Lass dieses mittelintelligente, super schnelle Modell arbeiten.
Für Unternehmen, die Coding-Agenten entwickeln: Wenn ihr etwas Wertvolles auf den Markt bringen wollt, ist der Aufbau eines neuen grundlegenden Modells um ein Vielfaches schwieriger, als ein offenes Modell feinzujustieren und die Inferenz zu optimieren.
Ehrlich gesagt, es ist der effiziente Weg, etwas zu veröffentlichen, das der Pareto-Frontier nahekommt, und ich finde es gut, dass Coding-Agenten-Unternehmen anfangen, daran teilzunehmen.
Aber verwechselt das nicht mit der Aussage der Coding-Agenten-Unternehmen: "mittelintelligent, aber schnell > hochintelligent, aber langsam."