Å trene LLM-er fra ende til annen er vanskelig. Veldig glad for å dele vår nye blogg (bok?) som dekker hele pipelinen: pre-training, post-training og infra. 200+ sider med hva som fungerte, hva som ikke fungerte, og hvordan du får det til å fungere pålitelig
> å bygge en ny grunnleggende modell er vanskeligere enn å finjustere en åpen modell og optimalisere slutningen.
Litt vilt, hvor underdiskutert det er at de fleste startups (selv de godt finansierte) ikke kan bygge sine egne grunnlagsmodeller og stole på at kinesiske laboratorier med åpen kildekode er deres.
Grunnen til at Cursor og Windsurf ga ut modeller optimalisert for hastighet er fordi det er mye mer gjennomførbart enn å bygge en intelligenspressende grunnleggende modell
1. Ta qwen3 og finjuster den via RL på selen din
2. slå den på Cerebras (eller optimalisert GPU) maskinvare
3. La den middels smarte, superraske modellen lage mat
For kodeagentselskaper, hvis du ønsker å bringe noe av verdi til markedet, er det vanskeligere å bygge en ny grunnleggende modell enn å finjustere en åpen modell og optimalisere slutningen.
ærlig talt, det er den effektive måten å gi ut noe som nærmer seg pareto-grensen, og jeg liker at kodeagentselskaper begynner å delta.
Men ikke forveksle dette med kodeagentselskaper som erklærer "middels smart, men rask > svært smart, men treg"