Ekscytujący nowy kurs: Dostosowywanie i uczenie przez wzmocnienie dla LLM: Wprowadzenie do post-treningu, prowadzony przez @realSharonZhou, VP AI w @AMD. Dostępny teraz w . Post-trening to kluczowa technika stosowana przez laboratoria na czołowej linii, aby przekształcić podstawowy LLM - model wytrenowany na ogromnych, nieoznakowanych tekstach do przewidywania następnego słowa/tokenu - w pomocnego, niezawodnego asystenta, który potrafi wykonywać polecenia. Widziałem również wiele zastosowań, gdzie post-trening to to, co przekształca aplikację demonstracyjną, która działa tylko w 80% czasu, w niezawodny system, który działa konsekwentnie. Ten kurs nauczy cię najważniejszych technik post-treningu! W tym 5-modułowym kursie Sharon przeprowadzi cię przez kompletny proces post-treningu: nadzorowane dostosowywanie, modelowanie nagród, RLHF oraz techniki takie jak PPO i GRPO. Nauczysz się również korzystać z LoRA do efektywnego treningu oraz projektować ewaluacje, które wychwycą problemy przed i po wdrożeniu. Umiejętności, które zdobędziesz: - Zastosowanie nadzorowanego dostosowywania i uczenia przez wzmocnienie (RLHF, PPO, GRPO) do dostosowywania modeli do pożądanych zachowań - Użycie LoRA do efektywnego dostosowywania bez ponownego trenowania całych modeli - Przygotowanie zbiorów danych i generowanie danych syntetycznych do post-treningu - Zrozumienie, jak działać w produkcyjnych pipeline'ach LLM, z punktami decyzyjnymi go/no-go i pętlami feedbackowymi Te zaawansowane metody nie są już ograniczone tylko do czołowych laboratoriów AI, a teraz możesz je wykorzystać w swoich własnych aplikacjach. Ucz się tutaj: