Побачивши @karpathy наночат, я став одержимий ідеєю використовувати на ньому локальне налаштування GRPO на Mac. Я змусив його працювати та відкривати все тут Ось наночат проходить етапи вирішення набору даних GSM8K, хоча це може виявитися занадто великим для нього 😅
Найважче те, що наночат не мав повної підтримки MLX. Він існував лише у вигляді файлів PyTorch .pt із користувацьким токенізатором tiktoken. Повинен був: - Збірка конвертера PyTorch → MLX - Визначтеся з форматом токенізатора - Зробіть так, щоб все це працювало з GRPO
У цьому репозиторії я вдаюся в подробиці перетворення nanochat в MLX. Працює для ОБОХ моделей: - Оригінальний 20-шаровий - Більший 32-шаровий (d32) Після конвертації → запустіть GRPO на будь-якому наборі даних, який вам потрібен.
Це експериментально, але я думаю, що це показує можливе майбутнє: сильне тонке налаштування локальних моделей на спеціалізованих наборах даних. Репозиторій також включає: - Утиліти для конвертації моделей в MLX - Інструменти логічного висновку - GRPO працює з БУДЬ-ЯКОЮ моделлю (не тільки з наночатом!)
14,54K