Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nuovo corso entusiasmante: Ottimizzazione e Apprendimento per Rinforzo per LLM: Introduzione al Post-training, insegnato da @realSharonZhou, VP di AI presso @AMD. Disponibile ora su .
Il post-training è la tecnica chiave utilizzata dai laboratori all'avanguardia per trasformare un LLM di base--un modello addestrato su un'enorme quantità di testo non etichettato per prevedere la prossima parola/token--in un assistente utile e affidabile che può seguire istruzioni. Ho anche visto molte applicazioni in cui il post-training è ciò che trasforma un'applicazione dimostrativa che funziona solo l'80% delle volte in un sistema affidabile che performa costantemente. Questo corso ti insegnerà le tecniche di post-training più importanti!
In questo corso di 5 moduli, Sharon ti guiderà attraverso l'intero pipeline di post-training: ottimizzazione supervisionata, modellazione dei premi, RLHF e tecniche come PPO e GRPO. Imparerai anche a utilizzare LoRA per un addestramento efficiente e a progettare valutazioni che individuano problemi prima e dopo il deployment.
Competenze che acquisirai:
- Applicare l'ottimizzazione supervisionata e l'apprendimento per rinforzo (RLHF, PPO, GRPO) per allineare i modelli ai comportamenti desiderati
- Utilizzare LoRA per un'ottimizzazione efficiente senza riaddestrare interi modelli
- Preparare dataset e generare dati sintetici per il post-training
- Comprendere come operare pipeline di produzione LLM, con punti decisionali go/no-go e feedback loops
Questi metodi avanzati non sono più limitati ai laboratori AI all'avanguardia, e ora puoi usarli nelle tue applicazioni.
Impara qui:
Principali
Ranking
Preferiti

