Nowy kurs: Post-trening LLM-ów Naucz się post-trenować i dostosować LLM w tym krótkim kursie, prowadzonym przez @BanghuaZ, adiunkta na Uniwersytecie Waszyngtońskim @UW oraz współzałożyciela @NexusflowX. Trenowanie LLM, aby podążał za instrukcjami lub odpowiadał na pytania, ma dwa kluczowe etapy: pre-trening i post-trening. W pre-treningu uczy się przewidywać następne słowo lub token z dużych ilości nieoznakowanego tekstu. W post-treningu uczy się użytecznych zachowań, takich jak podążanie za instrukcjami, korzystanie z narzędzi i rozumowanie. Post-trening przekształca ogólny predyktor tokenów—wytrenowany na trylionach nieoznakowanych tokenów tekstowych—w asystenta, który podąża za instrukcjami i wykonuje konkretne zadania. Ponieważ jest znacznie tańszy niż pre-trening, jest praktyczny dla znacznie większej liczby zespołów, aby włączyć metody post-treningowe do swoich procesów roboczych niż metody pre-treningowe. W tym kursie nauczysz się trzech powszechnych metod post-treningowych—Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) i Online Reinforcement Learning (RL)—i jak skutecznie wykorzystać każdą z nich. Przy SFT trenujesz model na parach danych wejściowych i idealnych odpowiedzi. Przy DPO dostarczasz zarówno preferowaną (wybraną), jak i mniej preferowaną (odrzuconą) odpowiedź i trenujesz model, aby faworyzował preferowany wynik. Przy RL model generuje wynik, otrzymuje ocenę nagrody na podstawie ludzkiej lub zautomatyzowanej informacji zwrotnej i aktualizuje model, aby poprawić wydajność. Nauczysz się podstawowych pojęć, powszechnych przypadków użycia i zasad kuracji wysokiej jakości danych do skutecznego treningu. Dzięki praktycznym laboratoriom pobierzesz wstępnie wytrenowany model z Hugging Face i przeprowadzisz post-trening przy użyciu SFT, DPO i RL, aby zobaczyć, jak każda technika kształtuje zachowanie modelu. Szczegółowo nauczysz się: - Zrozumieć, czym jest post-trening, kiedy go używać i jak różni się od pre-treningu. - Zbudować pipeline SFT, aby przekształcić model bazowy w model instruktażowy. - Zbadać, jak DPO przekształca zachowanie, minimalizując stratę kontrastową—karząc słabe odpowiedzi i wzmacniając preferowane. - Wdrożyć pipeline DPO, aby zmienić tożsamość asystenta czatu. - Poznać metody online RL, takie jak Proximal Policy Optimization (PPO) i Group Relative Policy Optimization (GRPO), oraz jak projektować funkcje nagród. - Trenować model z GRPO, aby poprawić jego zdolności matematyczne, korzystając z weryfikowalnej nagrody. Post-trening jest jednym z najszybciej rozwijających się obszarów treningu LLM. Niezależnie od tego, czy budujesz asystenta kontekstowego o wysokiej dokładności, dostosowujesz ton modelu, czy poprawiasz dokładność w zadaniach specyficznych, ten kurs da ci doświadczenie w najważniejszych technikach kształtujących sposób, w jaki LLM-y są obecnie post-trenowane. Zarejestruj się tutaj:
109,71K