DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Après avoir vu @karpathy nanochat, je suis devenu obsédé par l'idée d'utiliser le fine-tuning GRPO localement sur Mac. J'ai réussi à le faire fonctionner et je rends tout cela open source ici. Voici nanochat en train de passer par les étapes de résolution du dataset GSM8K, bien que cela puisse être trop pour lui 😅

La partie la plus difficile, nanochat n'avait pas de support complet pour MLX. Il n'existait que sous forme de fichiers .pt PyTorch avec un tokenizer tiktoken personnalisé. Il a fallu : - Construire un convertisseur PyTorch → MLX - Comprendre le format du tokenizer - Faire en sorte que tout fonctionne avec GRPO

Dans ce dépôt, je détaille la conversion de nanochat en MLX. Fonctionne pour LES DEUX modèles : - Modèle original à 20 couches - Modèle plus grand de Karpathy à 32 couches (d32) Une fois converti → exécutez GRPO sur n'importe quel ensemble de données que vous souhaitez.

C'est expérimental, mais je pense que cela montre un avenir possible : un ajustement fin fort des modèles locaux sur des ensembles de données spécialisés. Le dépôt comprend également : - Des utilitaires pour convertir des modèles en MLX - Des outils d'inférence - GRPO fonctionne avec n'importe quel modèle (pas seulement nanochat !)

15,43K

Meilleurs

Classement

Favoris