@karpathy nanochatを見て、MacでローカルにGRPOの微調整を使うというアイデアに夢中になりました。 私はそれを機能させ、ここですべてをオープンソース化しました これは、GSM8Kデータセットを解決する手順を実行するnanochatですが、それには😅多すぎるかもしれません
最も難しいのは、nanochat が MLX を完全にサポートしていなかったことです。 これは、カスタム tiktoken トークナイザーを備えた PyTorch .pt ファイルとしてのみ存在していました。 必要がありました: - PyTorch → MLX コンバーターをビルドする - トークナイザーの形式を理解する - GRPOですべてを機能させる
このリポジトリでは、nanochatをMLXに変換する方法について詳しく説明します。 両方のモデルで動作します。 - オリジナル20層 - カルパシーのより大きな32層(d32) 変換→必要なデータセットでGRPOを実行します。
これは実験的なものですが、特殊なデータセットでのローカルモデルの強力な微調整という、可能な未来を示していると思います。 リポジトリには次のものも含まれます。 - モデルをMLXに変換するためのユーティリティ - 推論ツール - GRPO はあらゆるモデルで動作します (nanochat だけでなく!
15.2K