Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sau khi xem nanochat của @karpathy, tôi đã trở nên cuồng nhiệt với ý tưởng sử dụng tinh chỉnh GRPO trên đó tại chỗ trên Mac.
Tôi đã làm cho nó hoạt động và mở mã nguồn toàn bộ ở đây
Đây là nanochat thực hiện các bước giải quyết tập dữ liệu GSM8K, mặc dù có thể là quá sức với nó 😅
Phần khó nhất là nanochat không có hỗ trợ MLX đầy đủ.
Nó chỉ tồn tại dưới dạng các tệp .pt của PyTorch với một bộ mã hóa tiktoken tùy chỉnh.
Phải:
- Xây dựng bộ chuyển đổi PyTorch → MLX
- Tìm hiểu định dạng bộ mã hóa
- Làm cho tất cả hoạt động với GRPO
Trong kho lưu trữ này, tôi đi vào chi tiết về việc chuyển đổi nanochat sang MLX.
Hoạt động cho CẢ HAI mô hình:
- Mô hình 20 lớp gốc
- Mô hình lớn hơn 32 lớp của Karpathy (d32)
Sau khi chuyển đổi → chạy GRPO trên bất kỳ tập dữ liệu nào bạn muốn.
Đây là một thử nghiệm, nhưng tôi nghĩ nó cho thấy một tương lai khả thi: tinh chỉnh mạnh mẽ các mô hình địa phương trên các tập dữ liệu chuyên biệt.
Repo cũng bao gồm:
- Tiện ích để chuyển đổi các mô hình sang MLX
- Công cụ suy diễn
- GRPO hoạt động với BẤT KỲ mô hình nào (không chỉ nanochat!)
15,2K
Hàng đầu
Thứ hạng
Yêu thích

