Новий захоплюючий курс: Fine-tuning and Reinforcement Learning for LLMS: Intro to Post-training, який викладає @realSharonZhou, віце-президент зі штучного інтелекту в @AMD. Тепер доступний за адресою . Пост-тренінг – це ключова техніка, яка використовується прикордонними лабораторіями, щоб перетворити базовий LLM – модель, навчену на масивному тексті без міток для передбачення наступного слова/токена – на корисного, надійного помічника, який може слідувати інструкціям. Я також бачив багато додатків, де посттренінг – це те, що перетворює демо-додаток, який працює лише 80% часу, на надійну систему, яка стабільно працює. Цей курс навчить вас найважливішим технікам після тренування! У цьому 5-модульному курсі Шерон проведе вас через повний конвеєр після навчання: тонке налаштування під наглядом, моделювання винагороди, RLHF і такі методи, як PPO та GRPO. Ви також навчитеся використовувати LoRA для ефективного навчання та розробляти евали, які виявляють проблеми до та після розгортання. Навички, які ви отримаєте: - Застосовуйте контрольоване тонке налаштування та навчання з підкріпленням (RLHF, PPO, GRPO) для узгодження моделей з бажаною поведінкою - Використовуйте LoRA для ефективного тонкого налаштування без перенавчання цілих моделей - Підготовка наборів даних та генерація синтетичних даних для посттренувальних - Розуміти, як працювати з виробничими конвеєрами LLM з точками прийняття рішень «так/ні» та циклами зворотного зв'язку Ці передові методи більше не обмежуються лабораторіями передового штучного інтелекту, і тепер ви можете використовувати їх у власних програмах. Дізнайтеся тут: