Jag har precis börjat leka med den, men modellen verkar bra hittills. Men det har också några implementeringsegenheter: - Ett nytt chattprotokoll - Endast tillgängligt i fp4-kvantisering - Uppmärksamhetssänka, som liksom bryter den sammansmälta uppmärksamheten Öppna modeller går snabbt och jag undrar hur mycket tid man ska investera i att stödja dessa funktioner? Kommer OpenAI att öppna källkod för fler modeller?
Awni Hannun
Awni Hannun6 aug. 12:43
OpenAI:s nya 120B MoE fungerar bra i mlx-lm på en M3 Ultra. Köra 8-bitars kvant:
199