トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
@karpathy nanochatを見て、MacでローカルにGRPOの微調整を使うというアイデアに夢中になりました。
私はそれを機能させ、ここですべてをオープンソース化しました
これは、GSM8Kデータセットを解決する手順を実行するnanochatですが、それには😅多すぎるかもしれません
最も難しいのは、nanochat が MLX を完全にサポートしていなかったことです。
これは、カスタム tiktoken トークナイザーを備えた PyTorch .pt ファイルとしてのみ存在していました。
必要がありました:
- PyTorch → MLX コンバーターをビルドする
- トークナイザーの形式を理解する
- GRPOですべてを機能させる
このリポジトリでは、nanochatをMLXに変換する方法について詳しく説明します。
両方のモデルで動作します。
- オリジナル20層
- カルパシーのより大きな32層(d32)
変換→必要なデータセットでGRPOを実行します。
これは実験的なものですが、特殊なデータセットでのローカルモデルの強力な微調整という、可能な未来を示していると思います。
リポジトリには次のものも含まれます。
- モデルをMLXに変換するためのユーティリティ
- 推論ツール
- GRPO はあらゆるモデルで動作します (nanochat だけでなく!
15.2K
トップ
ランキング
お気に入り

