O novo MoE de 120B da OpenAI funciona bem no mlx-lm em um M3 Ultra. Executando a quantização de 8 bits:
38,47K