După ce am văzut @karpathy nanochat, am devenit obsedat de ideea de a folosi reglarea fină GRPO pe el local pe Mac. Am făcut să funcționeze și să deschid totul aici Iată nanochat care parcurge pașii de rezolvare a setului de date GSM8K, deși poate fi prea mult pentru el 😅
Cea mai grea parte, nanochat-ul nu a avut suport MLX complet. A existat doar ca fișiere PyTorch .pt cu un tokenizator tiktoken personalizat. A trebuit să: - Construiți convertorul PyTorch → MLX - Aflați formatul tokenizatorului - Faceți totul să funcționeze cu GRPO
În acest depozit intru în detaliile conversiei nanochat în MLX. Funcționează pentru AMBELE modele: - Original cu 20 de straturi - Karpathy cu 32 de straturi (d32) Odată convertit→ rulați GRPO pe orice set de date doriți.
Acest lucru este experimental, dar cred că arată un viitor posibil: reglarea fină puternică a modelelor locale pe seturi de date specializate. Depozitul include, de asemenea: - Utilitare pentru conversia modelelor în MLX - Instrumente de inferență - GRPO funcționează cu ORICE model (nu doar nanochat!)
15,2K