Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Prowadzenie badań w @PrimeIntellect
Chciałbym, abyśmy mogli uczyć się tylko rzeczy związanych z modelami, zamiast wchodzić w interakcje z statycznymi bytami.

Andrej Karpathy5 godz. temu
Wczoraj wieczorem nauczyłem nanochat d32, jak liczyć 'r' w truskawce (lub podobnych wariantach). Pomyślałem, że to będzie dobry/zabawny przykład, jak dodać możliwości do nanochat, więc napisałem pełny przewodnik tutaj:
To jest realizowane za pomocą nowego syntetycznego zadania `SpellingBee`, które generuje przykłady użytkownika proszącego o tego rodzaju problem oraz idealne rozwiązanie od asystenta. Następnie przeprowadzamy midtrain/SFT finetuning na tych przykładach, aby wyposażyć LLM w tę zdolność, lub dalej trenujemy z RL, aby uczynić go bardziej odpornym. Jest wiele szczegółów, które trzeba dopracować, szczególnie w przypadku mniejszych modeli, a przewodnik przechodzi przez nie. Krótkie podsumowanie:
- Musisz zapewnić różnorodność w podpowiedziach/zapytaniach użytkowników
- W przypadku małych modeli, takich jak nanochat, musisz być naprawdę ostrożny z detalami tokenizacji, aby ułatwić zadanie LLM. W szczególności musisz uważać na białe znaki, a następnie musisz rozłożyć obliczenia rozumowania na wiele tokenów częściowego rozwiązania: najpierw standaryzujemy słowo w cudzysłowach, potem je literujemy (aby rozbić tokeny), następnie iterujemy i utrzymujemy wyraźny licznik itd.
- Zachęcam model do rozwiązania zadania na dwa różne sposoby: manualnie (obliczenia w myślach) oraz za pomocą narzędzia, jakim jest interpreter Pythona, do którego ma dostęp nanochat. To jest trochę "sztuczki i iluzje", ponieważ każde rozwiązanie w tej chwili jest "czyste", bez błędów. Można by dostosować zadanie, aby symulować błędy i pokazywać poprawki na przykładach, lub przeprowadzić RL. Najprawdopodobniej najlepsze będzie połączenie obu, gdzie pierwsze działa jako priorytet dla RL i daje mu rzeczy do pracy.
Gdyby nanochat był znacznie większym modelem, można by się spodziewać, że ta zdolność łatwiej "wyjdzie na jaw" w pewnym momencie. Ale ponieważ "mózg" nanochat d32 ma rozmiar ~pszczółki miodnej, jeśli chcemy, aby liczył r w truskawce, musimy to zrobić, nadreprezentując to w danych, aby zachęcić model do wcześniejszego nauczenia się tego. Ale działa! :)

34,12K
Najlepsze
Ranking
Ulubione

