En spännande ny kurs: Finjustering och förstärkningsinlärning för LLM: Intro till efterutbildning, undervisad av @realSharonZhou, VP för AI på @AMD. Finns nu på . Efterträning är den viktigaste tekniken som används av frontier labs för att förvandla en bas-LLM – en modell som tränats på massiv omärkt text för att förutsäga nästa ord/token – till en användbar, pålitlig assistent som kan följa instruktionerna. Jag har också sett många applikationer där efterutbildning är det som förvandlar en demoapplikation som bara fungerar 80 % av tiden till ett pålitligt system som konsekvent presterar. Den här kursen kommer att lära dig de viktigaste teknikerna efter träningen! I den här 5-modulskursen går Sharon igenom hela pipelinen efter träningen: övervakad finjustering, belöningsmodellering, RLHF och tekniker som PPO och GRPO. Du kommer också att lära dig att använda LoRA för effektiv träning och att designa evals som fångar upp problem före och efter distribution. Färdigheter du kommer att få: - Tillämpa övervakad finjustering och förstärkningsinlärning (RLHF, PPO, GRPO) för att anpassa modeller till önskade beteenden - Använd LoRA för effektiv finjustering utan att träna om hela modeller - Förbereda datauppsättningar och generera syntetisk data för efterträning - Förstå hur man använder LLM-produktionspipelines, med go / no-go beslutspunkter och återkopplingsslingor Dessa avancerade metoder är inte längre begränsade till avancerade AI-labb, och du kan nu använda dem i dina egna applikationer. Lär dig här: