Ho appena iniziato a giocarci, ma il modello sembra ottimo finora. Tuttavia, ha anche alcune idiosincrasie di implementazione: - Un nuovo protocollo di chat - Disponibile solo in quantizzazione fp4 - Sink di attenzione che rompe un po' l'attenzione fusa I modelli open source si muovono rapidamente e mi chiedo quanto tempo investire per supportare queste funzionalità? OpenAI aprirà più modelli?
Awni Hannun
Awni Hannun6 ago, 12:43
Il nuovo MoE da 120B di OpenAI funziona bene in mlx-lm su un M3 Ultra. Eseguendo il quantizzazione a 8 bit:
183