Solo acabo de empezar a jugar con esto, pero el modelo parece genial hasta ahora. Pero también tiene algunas idiosincrasias de implementación: - Un nuevo protocolo de chat - Solo disponible en cuantización fp4 - Un sumidero de atención que rompe un poco la atención fusionada Los modelos abiertos avanzan rápido y me pregunto cuánto tiempo invertir en apoyar estas características. ¿OpenAI abrirá más modelos?
Awni Hannun
Awni Hannun6 ago, 12:43
El nuevo MoE de 120B de OpenAI funciona bien en mlx-lm en un M3 Ultra. Ejecutando el cuantificador de 8 bits:
182