Sie können jetzt Agenten direkt von Linear aus starten.
Delegieren Sie ein Problem oder erwähnen Sie @cursor in einem Kommentar, um die Arbeit eines Agenten an der Aufgabe zu beginnen.
MoE-Schichten können wirklich langsam sein. Bei der Schulung unserer Codierungsmodelle @cursor_ai benötigten sie 27–53 % der Trainingszeit.
Also haben wir es komplett auf Kernel-Ebene neu aufgebaut und sind zu MXFP8 gewechselt. Das Ergebnis: 3,5-mal schnellere MoE-Schicht und 1,5-mal schnellere End-to-End-Trainingsgeschwindigkeit.
Wir glauben, dass unser MXFP8 MoE-Trainingsstapel schneller ist als jede heute verfügbare Open-Source-Alternative.
Hier mehr lesen: