Un nuovo corso entusiasmante: Ottimizzazione e Apprendimento per Rinforzo per LLM: Introduzione al Post-training, insegnato da @realSharonZhou, VP di AI presso @AMD. Disponibile ora su . Il post-training è la tecnica chiave utilizzata dai laboratori all'avanguardia per trasformare un LLM di base--un modello addestrato su un'enorme quantità di testo non etichettato per prevedere la prossima parola/token--in un assistente utile e affidabile che può seguire istruzioni. Ho anche visto molte applicazioni in cui il post-training è ciò che trasforma un'applicazione dimostrativa che funziona solo l'80% delle volte in un sistema affidabile che performa costantemente. Questo corso ti insegnerà le tecniche di post-training più importanti! In questo corso di 5 moduli, Sharon ti guiderà attraverso l'intero pipeline di post-training: ottimizzazione supervisionata, modellazione dei premi, RLHF e tecniche come PPO e GRPO. Imparerai anche a utilizzare LoRA per un addestramento efficiente e a progettare valutazioni che individuano problemi prima e dopo il deployment. Competenze che acquisirai: - Applicare l'ottimizzazione supervisionata e l'apprendimento per rinforzo (RLHF, PPO, GRPO) per allineare i modelli ai comportamenti desiderati - Utilizzare LoRA per un'ottimizzazione efficiente senza riaddestrare interi modelli - Preparare dataset e generare dati sintetici per il post-training - Comprendere come operare pipeline di produzione LLM, con punti decisionali go/no-go e feedback loops Questi metodi avanzati non sono più limitati ai laboratori AI all'avanguardia, e ora puoi usarli nelle tue applicazioni. Impara qui: