4 etapy szkolenia LLM od podstaw, jasno wyjaśnione (z wizualizacjami):
Dziś omówimy 4 etapy budowania LLM-ów od podstaw, aby uczynić je zastosowalnymi w rzeczywistych przypadkach użycia. Omówimy: - Wstępne szkolenie - Dostosowanie instrukcji - Dostosowanie preferencji - Dostosowanie rozumowania Wizualizacja podsumowuje te techniki. Zanurzmy się w to!
0️⃣ Losowo zainicjowany LLM Na tym etapie model nic nie wie. Pytasz go „Czym jest LLM?” i otrzymujesz bełkot, taki jak „spróbuj ręki petera i cześć 448Sn”. Nie widział jeszcze żadnych danych i posiada tylko losowe wagi. Sprawdź to 👇
1️⃣ Wstępne szkolenie Ten etap uczy LLM podstaw języka, trenując go na ogromnych zbiorach danych, aby przewidywał następny token. W ten sposób przyswaja gramatykę, fakty ze świata itp. Jednak nie radzi sobie z rozmową, ponieważ po wezwaniu po prostu kontynuuje tekst. Sprawdź to 👇
2️⃣ Dostosowywanie instrukcji Aby uczynić to konwersacyjnym, przeprowadzamy Dostosowywanie Instrukcji, trenując na parach instrukcja-odpowiedź. Pomaga to w nauce, jak podążać za wskazówkami i formatować odpowiedzi. Teraz potrafi: - Odpowiadać na pytania - Podsumowywać treści - Pisać kod itp. Sprawdź to 👇
Na tym etapie prawdopodobnie: - Wykorzystaliśmy cały surowy archiwum internetu i wiedzy. - Budżet na dane odpowiedzi instrukcji oznaczone przez ludzi. Co możemy zrobić, aby dalej poprawić model? Wchodzimy w obszar Uczenia przez Wzmocnienie (RL). Uczmy się dalej 👇
3️⃣ Dostosowywanie preferencji (PFT) Musiałeś widzieć ten ekran w ChatGPT, na którym pytają: Którą odpowiedź preferujesz? To nie tylko dla informacji zwrotnej, ale to cenne dane dotyczące ludzkich preferencji. OpenAI wykorzystuje to do dostosowywania swoich modeli za pomocą dostosowywania preferencji. Sprawdź to 👇
W PFT: Użytkownik wybiera jedną z 2 odpowiedzi, aby uzyskać dane dotyczące preferencji ludzi. Następnie model nagrody jest trenowany, aby przewidywać preferencje ludzi, a LLM jest aktualizowany za pomocą RL. Sprawdź to 👇
Powyższy proces nazywa się RLHF (Uczenie przez Wzmocnienie z Ludzkim Sprzężeniem Zwrotnym), a algorytm używany do aktualizacji wag modelu nazywa się PPO. Uczy to LLM dostosowywać się do ludzi, nawet gdy nie ma "poprawnej" odpowiedzi. Ale możemy jeszcze bardziej poprawić LLM. Uczmy się dalej👇
4️⃣ Udoskonalanie rozumowania W zadaniach związanych z rozumowaniem (matematyka, logika itp.) zazwyczaj istnieje tylko jedna poprawna odpowiedź i określona seria kroków, aby uzyskać odpowiedź. Dlatego nie potrzebujemy ludzkich preferencji i możemy użyć poprawności jako sygnału. Nazywa się to udoskonalaniem rozumowania👇
Kroki: - Model generuje odpowiedź na zapytanie. - Odpowiedź jest porównywana z znaną poprawną odpowiedzią. - Na podstawie poprawności przyznajemy nagrodę. Nazywa się to Uczeniem Wzmocnionym z Weryfikowalnymi Nagrodami. GRPO od DeepSeek to popularna technika. Sprawdź to👇
To były 4 etapy szkolenia LLM od podstaw. - Zacznij od losowo zainicjowanego modelu. - Wstępnie wytrenuj go na korpusach na dużą skalę. - Użyj dostrajania instrukcji, aby postępować zgodnie z poleceniami. - Użyj precyzyjnego dostrojenia preferencji i rozumowania, aby wyostrzyć odpowiedzi. Sprawdź to 👇
Jeśli uważasz go za wnikliwy, udostępnij go ponownie w swojej sieci. Znajdź mnie → @_avichawla Każdego dnia dzielę się samouczkami i spostrzeżeniami na temat DS, ML, LLM i RAGs.
Avi Chawla
Avi Chawla21 lip 2025
4 etapy szkolenia LLM od podstaw, jasno wyjaśnione (z wizualizacjami):
@tasiorek27 Udoskonalanie przez wzmocnienie: Udoskonalanie instrukcji: (To nie dotyczy samego szkolenia, a raczej generowania zestawu danych do udoskonalania instrukcji)
Avi Chawla
Avi Chawla6 maj 2025
Let's generate our own LLM fine-tuning dataset (100% local):
714,03K