Szkolenie LLM od początku do końca jest trudne. Bardzo się cieszę, że mogę podzielić się naszym nowym blogiem (książką?), który obejmuje cały proces: wstępne szkolenie, szkolenie po, oraz infrastrukturę. Ponad 200 stron tego, co zadziałało, co nie, i jak sprawić, by działało niezawodnie
> budowanie nowego modelu podstawowego jest o rzędy wielkości trudniejsze niż dostosowywanie otwartego modelu i optymalizacja wnioskowania.
trochę dzikie, jak mało się o tym mówi, że większość startupów (nawet tych dobrze finansowanych) nie może zbudować własnych modeli podstawowych i polega na tym, że laboratoria z Chin na granicy udostępniają swoje..
powodem, dla którego Cursor i Windsurf wypuściły modele zoptymalizowane pod kątem prędkości, jest to, że jest to znacznie łatwiejsze niż budowanie modelu bazowego, który popycha inteligencję
1. weź qwen3 i dostosuj go za pomocą RL na swoim sprzęcie
2. wrzuć go na sprzęt Cerebras (lub zoptymalizowany GPU)
3. pozwól, aby ten średnio inteligentny, super szybki model działał
dla firm zajmujących się agentami kodującymi, jeśli chcesz wprowadzić coś wartościowego na rynek, zbudowanie nowego modelu bazowego jest o rzędy wielkości trudniejsze niż dostosowanie otwartego modelu i optymalizacja wnioskowania.
szczerze mówiąc, to efektywny sposób na wydanie czegoś, co zbliża się do granicy Pareto i podoba mi się, że firmy zajmujące się agentami kodującymi zaczynają uczestniczyć.
ale nie myl tego z tym, że firmy zajmujące się agentami kodującymi ogłaszają "średnio inteligentny, ale szybki > wysoce inteligentny, ale wolny"