分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

@karpathy nanochatを見て、MacでローカルにGRPOの微調整を使うというアイデアに夢中になりました。私はそれを機能させ、ここですべてをオープンソース化しましたこれは、GSM8Kデータセットを解決する手順を実行するnanochatですが、それには😅多すぎるかもしれません

最も難しいのは、nanochat が MLX を完全にサポートしていなかったことです。これは、カスタム tiktoken トークナイザーを備えた PyTorch .pt ファイルとしてのみ存在していました。必要がありました： - PyTorch → MLX コンバーターをビルドする - トークナイザーの形式を理解する - GRPOですべてを機能させる

このリポジトリでは、nanochatをMLXに変換する方法について詳しく説明します。両方のモデルで動作します。 - オリジナル20層 - カルパシーのより大きな32層(d32) 変換→必要なデータセットでGRPOを実行します。

これは実験的なものですが、特殊なデータセットでのローカルモデルの強力な微調整という、可能な未来を示していると思います。リポジトリには次のものも含まれます。 - モデルをMLXに変換するためのユーティリティ - 推論ツール - GRPO はあらゆるモデルで動作します (nanochat だけでなく!

15.2K

トップ

ランキング

お気に入り