Ich habe gerade erst angefangen, damit zu spielen, aber das Modell scheint bisher großartig zu sein. Aber es hat auch einige Implementierungsbesonderheiten: - Ein neues Chat-Protokoll - Nur in fp4-Quantisierung verfügbar - Attention-Sink, der die fusionierte Aufmerksamkeit ein wenig bricht Offene Modelle entwickeln sich schnell und ich frage mich, wie viel Zeit ich in die Unterstützung dieser Funktionen investieren sollte? Wird OpenAI mehr Modelle Open Source bereitstellen?
Awni Hannun
Awni Hannun6. Aug., 12:43
OpenAIs neues 120B MoE läuft gut in mlx-lm auf einem M3 Ultra. Ausführen der 8-Bit-Quantisierung:
187