一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

從零開始訓練 LLM 的四個階段，清晰解釋（附視覺圖）:

今天，我們將介紹從零開始構建 LLM 的四個階段，使其適用於現實世界的用例。我們將涵蓋： - 預訓練 - 指令微調 - 偏好微調 - 推理微調這個視覺圖總結了這些技術。讓我們深入了解！

0️⃣ 隨機初始化的 LLM 此時，模型什麼都不知道。你問它「什麼是 LLM？」它會給出像「試試彼得手和你好 448Sn」這樣的胡言亂語。它還沒有看到任何數據，僅僅擁有隨機的權重。查看這個 👇

1️⃣ 預訓練這個階段通過在大量語料庫上訓練 LLM 來教它語言的基本知識，以預測下一個標記。這樣，它吸收了語法、世界事實等。但它不擅長對話，因為當被提示時，它只是繼續文本。查看這個 👇

2️⃣ 指令微調為了使其具備對話能力，我們通過訓練指令-回應對來進行指令微調。這有助於它學會如何遵循提示並格式化回覆。現在它可以： - 回答問題 - 總結內容 - 編寫代碼等等。查看這個 👇

在這個階段，我們可能已經： - 利用整個原始互聯網檔案和知識。 - 用於人類標記的指令回應數據的預算。那麼我們可以做什麼來進一步改善模型呢？我們進入強化學習（RL）的領域。讓我們接下來學習 👇

3️⃣ 偏好微調 (PFT) 你一定見過 ChatGPT 上這個畫面，它會問：你更喜歡哪個回應？這不僅僅是為了反饋，而是有價值的人類偏好數據。 OpenAI 利用這些數據來微調他們的模型，使用偏好微調。查看這個 👇

在 PFT：用戶在兩個回應之間選擇，以產生人類偏好數據。然後訓練一個獎勵模型來預測人類偏好，並使用強化學習更新 LLM。查看這個 👇

上述過程稱為 RLHF（人類反饋的強化學習），用於更新模型權重的算法稱為 PPO。它教導 LLM 與人類對齊，即使在沒有 "正確" 答案的情況下。但我們可以進一步改善 LLM。讓我們接下來學習👇

4️⃣ 推理微調在推理任務（數學、邏輯等）中，通常只有一個正確的回答和一系列明確的步驟來獲得答案。因此，我們不需要人類的偏好，可以使用正確性作為信號。這被稱為推理微調👇

步驟： - 模型生成對提示的回答。 - 將回答與已知的正確答案進行比較。 - 根據正確性，我們分配獎勵。這被稱為可驗證獎勵的強化學習。 DeepSeek 的 GRPO 是一種流行的技術。查看這個👇

這些是從頭開始訓練法學碩士的 4 個階段。 - 從隨機初始化的模型開始。 - 在大規模語料庫上對其進行預訓練。 - 使用指令微調使其遵循命令。 - 使用偏好和推理微調來提高回應能力。檢查這個 👇

如果您覺得它很有見地，請與您的網路重新分享。找到我 → @_avichawla 每天，我都會分享有關 DS、ML、LLM 和 RAG 的教程和見解。

@tasiorek27 強化微調：指令微調：（這不是關於訓練本身，而是關於生成指令微調數據集）

714.03K