Het trainen van LLM's van begin tot eind is moeilijk. Erg enthousiast om onze nieuwe blog (boek?) te delen die de volledige pijplijn behandelt: pre-training, post-training en infrastructuur. Meer dan 200 pagina's over wat werkte, wat niet werkte, en hoe je het betrouwbaar kunt laten draaien.
> het bouwen van een nieuw fundamenteel model is vele malen moeilijker dan het fijn afstemmen van een open model en het optimaliseren van inferentie.
het is een beetje vreemd hoe onderbelicht het is dat de meeste startups (zelfs de goed gefinancierde) hun eigen fundamentele modellen niet kunnen bouwen en afhankelijk zijn van de open-source modellen van grensverleggende Chinese laboratoria..
de reden dat cursor en windsurf modellen hebben uitgebracht die geoptimaliseerd zijn voor snelheid, is omdat het veel haalbaarder is dan het bouwen van een intelligentie-ondersteunend fundamenteel model
1. neem qwen3 en verfijn het via RL op je harnas
2. zet het op Cerebras (of geoptimaliseerde GPU) hardware
3. laat dat medium-slimme, super-snelle model koken
voor bedrijven die coding agents ontwikkelen, als je iets waardevols op de markt wilt brengen, is het bouwen van een nieuw fundamenteel model vele malen moeilijker dan het verfijnen van een open model en het optimaliseren van inferentie.
eerlijk gezegd is het de efficiënte manier om iets uit te brengen dat de pareto-grens benadert en ik vind het leuk dat bedrijven die coding agents ontwikkelen beginnen deel te nemen.
maar vergis je niet, dit is geen verklaring van coding agents bedrijven dat "medium slim maar snel > hoog intelligent maar langzaam"