GPT-OSS folosește cuantificarea MXFP4 (pe care MLX o acceptă acum). Există două formate FP4 care circulă în acest moment: MXFP4 și NVFP4 (NV pentru Nvidia). Uitându-ne la modul în care GPT-OSS folosește MXFP4, este oarecum suboptim. Cred că NVFP4 va fi cel mai frecvent utilizat format în viitor. Mai multe detalii mai jos: Ambele formate cuantifică greutățile în virgulă mobilă de 4 biți (e2 m1) cu o scară unică pe grup. Diferența este dimensiunea grupului și modul în care este codificată scala pentru fiecare grup. - MXFP4 folosește o scară e8m0 (punct fix, 8 biți) cu o dimensiune de grup de 32. Se ridică la puterea 2 înainte de a înmulți greutatea. - NVFP4 folosește o scară e4m3 (fp8) cu o dimensiune de grup de 16. Se înmulțește direct cu greutatea Codificarea scalei în MXFP4 este destul de suboptimă, deoarece nu are reprezentări pentru o mulțime de valori în intervalul de care avem nevoie. De fapt, dacă te uiți la distribuția scalelor pentru GPT-OSS, aceasta este extrem de concentrată în jurul a doar câteva valori. De exemplu, pentru al doilea strat MoE mă uit la doar 8/256 de valori posibile sunt chiar utilizate. (Vezi graficul).
17,83K