Melatih LLM dari ujung ke ujung itu sulit. Sangat bersemangat untuk membagikan blog (buku?) baru kami yang mencakup saluran lengkap: pra-pelatihan, pasca-pelatihan, dan infra. 200+ halaman tentang apa yang berhasil, apa yang tidak, dan cara membuatnya berjalan dengan andal
> membangun model dasar baru adalah urutan besarnya lebih sulit daripada menyempurnakan model terbuka dan mengoptimalkan inferensi.
Agak liar betapa kurang dibahas bahwa sebagian besar startup (bahkan yang didanai dengan baik) tidak dapat membangun model fondasi mereka sendiri dan mengandalkan laboratorium Cina perbatasan yang membuka sumber mereka ..
Alasan Cursor dan Windsurf merilis model yang dioptimalkan untuk kecepatan adalah karena itu jauh lebih dapat dilakukan daripada membangun model dasar yang mendorong kecerdasan
1. ambil qwen3 dan sempurnakan melalui RL pada harness Anda
2. tampar pada perangkat keras Cerebras (atau GPU yang dioptimalkan)
3. Biarkan model yang sedang pintar dan super cepat itu memasak
Untuk perusahaan agen pengkodean, jika Anda ingin membawa sesuatu yang bernilai ke pasar, membangun model dasar baru adalah urutan besarnya lebih sulit daripada menyempurnakan model terbuka dan mengoptimalkan inferensi.
terus terang, ini adalah cara yang efisien untuk merilis sesuatu yang mendekati perbatasan Pareto dan saya suka bahwa perusahaan agen pengkodean mulai berpartisipasi.
Tapi jangan salah mengira ini sebagai perusahaan agen pengkodean yang menyatakan "Sedang Cerdas Tapi Cepat > Sangat Cerdas Tapi Lambat"