Jeg har nettopp begynt å leke med den, men modellen virker bra så langt. Men den har også noen implementeringssæregenheter: - En ny chat-protokoll - Kun tilgjengelig i fp4-kvantisering - Oppmerksomhet synke som slags bryter smeltet oppmerksomhet Åpne modeller beveger seg raskt, og jeg lurer på hvor mye tid jeg skal investere i å støtte disse funksjonene? Vil OpenAI åpne kildekode flere modeller?
Awni Hannun
Awni Hannun6. aug., 12:43
OpenAIs nye 120B MoE kjører fint i mlx-lm på en M3 Ultra. Kjøre 8-biters kvantum:
181