Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ekscytujący nowy kurs: Dostosowywanie i uczenie przez wzmocnienie dla LLM: Wprowadzenie do post-treningu, prowadzony przez @realSharonZhou, VP AI w @AMD. Dostępny teraz w .
Post-trening to kluczowa technika stosowana przez laboratoria na czołowej linii, aby przekształcić podstawowy LLM - model wytrenowany na ogromnych, nieoznakowanych tekstach do przewidywania następnego słowa/tokenu - w pomocnego, niezawodnego asystenta, który potrafi wykonywać polecenia. Widziałem również wiele zastosowań, gdzie post-trening to to, co przekształca aplikację demonstracyjną, która działa tylko w 80% czasu, w niezawodny system, który działa konsekwentnie. Ten kurs nauczy cię najważniejszych technik post-treningu!
W tym 5-modułowym kursie Sharon przeprowadzi cię przez kompletny proces post-treningu: nadzorowane dostosowywanie, modelowanie nagród, RLHF oraz techniki takie jak PPO i GRPO. Nauczysz się również korzystać z LoRA do efektywnego treningu oraz projektować ewaluacje, które wychwycą problemy przed i po wdrożeniu.
Umiejętności, które zdobędziesz:
- Zastosowanie nadzorowanego dostosowywania i uczenia przez wzmocnienie (RLHF, PPO, GRPO) do dostosowywania modeli do pożądanych zachowań
- Użycie LoRA do efektywnego dostosowywania bez ponownego trenowania całych modeli
- Przygotowanie zbiorów danych i generowanie danych syntetycznych do post-treningu
- Zrozumienie, jak działać w produkcyjnych pipeline'ach LLM, z punktami decyzyjnymi go/no-go i pętlami feedbackowymi
Te zaawansowane metody nie są już ograniczone tylko do czołowych laboratoriów AI, a teraz możesz je wykorzystać w swoich własnych aplikacjach.
Ucz się tutaj:
Najlepsze
Ranking
Ulubione

