Il nuovo MoE da 120B di OpenAI funziona bene in mlx-lm su un M3 Ultra. Eseguendo il quantizzazione a 8 bit:
38,46K