Acabei de começar a brincar com isso, mas o modelo parece ótimo até agora. Mas também tem algumas idiossincrasias de implementação: - Um novo protocolo de chat - Disponível apenas na quantização fp4 - Um sink de atenção que meio que quebra a atenção fundida Modelos abertos evoluem rapidamente e me pergunto quanto tempo investir no suporte a essas funcionalidades? A OpenAI vai abrir mais modelos?
Awni Hannun
Awni Hannun6/08, 12:43
O novo MoE de 120B da OpenAI funciona bem no mlx-lm em um M3 Ultra. Executando a quantização de 8 bits:
192