Kursus baru yang menarik: Fine-tuning dan Reinforcement Learning untuk LLM: Pengantar Pasca-pelatihan, diajarkan oleh @realSharonZhou, VP AI di @AMD. Tersedia sekarang di . Pasca-pelatihan adalah teknik utama yang digunakan oleh laboratorium perbatasan untuk mengubah LLM dasar - model yang dilatih pada teks besar tanpa label untuk memprediksi kata/token berikutnya - menjadi asisten yang membantu dan andal yang dapat mengikuti instruksi. Saya juga telah melihat banyak aplikasi di mana pasca-pelatihan adalah apa yang mengubah aplikasi demo yang hanya bekerja 80% dari waktu menjadi sistem andal yang bekerja secara konsisten. Kursus ini akan mengajarkan Anda teknik pasca-pelatihan yang paling penting! Dalam kursus 5 modul ini, Sharon memandu Anda melalui pipeline pasca-pelatihan lengkap: penyempurnaan yang diawasi, pemodelan hadiah, RLHF, dan teknik seperti PPO dan GRPO. Anda juga akan belajar menggunakan LoRA untuk pelatihan yang efisien, dan merancang eval yang menangkap masalah sebelum dan sesudah penerapan. Keterampilan yang akan Anda peroleh: - Terapkan pembelajaran penyempurnaan dan penguatan yang diawasi (RLHF, PPO, GRPO) untuk menyelaraskan model dengan perilaku yang diinginkan - Gunakan LoRA untuk penyempurnaan yang efisien tanpa melatih ulang seluruh model - Menyiapkan himpunan data dan menghasilkan data sintetis untuk pasca-pelatihan - Memahami cara mengoperasikan saluran produksi LLM, dengan titik keputusan go/no-go dan loop umpan balik Metode canggih ini tidak terbatas pada lab AI perbatasan lagi, dan sekarang Anda dapat menggunakannya di aplikasi Anda sendiri. Pelajari di sini: