Addestrare i LLM end-to-end è difficile. Sono molto entusiasta di condividere il nostro nuovo blog (libro?) che copre l'intero processo: pre-addestramento, post-addestramento e infrastruttura. Oltre 200 pagine di ciò che ha funzionato, ciò che non ha funzionato e come farlo funzionare in modo affidabile
> costruire un nuovo modello fondamentale è di ordini di grandezza più difficile rispetto al fine-tuning di un modello aperto e all'ottimizzazione dell'inferenza.
è piuttosto sorprendente quanto poco si parli del fatto che la maggior parte delle startup (anche quelle ben finanziate) non riesca a costruire i propri modelli fondamentali e faccia affidamento sui laboratori cinesi all'avanguardia che rendono i loro modelli open-source..
il motivo per cui Cursor e Windsurf hanno rilasciato modelli ottimizzati per la velocità è che è molto più fattibile rispetto alla costruzione di un modello fondamentale che spinge l'intelligenza
1. prendi Qwen3 e affinalo tramite RL sul tuo harness
2. mettilo su hardware Cerebras (o GPU ottimizzata)
3. lascia che quel modello medio-intelligente e super-veloce si sviluppi
per le aziende di agenti di codifica, se vuoi portare qualcosa di valore sul mercato, costruire un nuovo modello fondamentale è di ordini di grandezza più difficile rispetto all'affinamento di un modello aperto e all'ottimizzazione dell'inferenza.
francamente, è il modo efficiente per rilasciare qualcosa che si avvicina al confine di Pareto e mi piace che le aziende di agenti di codifica stiano iniziando a partecipare.
ma non scambiare questo per le aziende di agenti di codifica che dichiarano "medio intelligente ma veloce > altamente intelligente ma lento"