从头开始训练LLMs的4个阶段,清晰解释(附视觉图):
今天,我们将讨论从零开始构建大型语言模型(LLMs)的四个阶段,以使其适用于现实世界的用例。 我们将涵盖: - 预训练 - 指令微调 - 偏好微调 - 推理微调 视觉图总结了这些技术。 让我们深入了解!
0️⃣ 随机初始化的 LLM 此时,模型一无所知。 你问它“什么是 LLM?”它却给出像“试试彼得手和你好 448Sn”这样的无意义回答。 它还没有看到任何数据,仅仅拥有随机权重。 查看这个 👇
1️⃣ 预训练 这个阶段通过在大量语料库上进行训练,教会LLM语言的基础知识,以预测下一个标记。这样,它吸收了语法、世界事实等。 但它在对话方面表现不佳,因为当被提示时,它只是继续文本。 查看这个 👇
2️⃣ 指令微调 为了使其具有对话性,我们通过训练指令-响应对进行指令微调。这有助于它学习如何遵循提示并格式化回复。 现在它可以: - 回答问题 - 总结内容 - 编写代码等。 查看这个 👇
在这一点上,我们可能已经: - 利用整个原始互联网档案和知识。 - 为人工标记的指令响应数据分配了预算。 那么我们可以做些什么来进一步改善模型呢? 我们进入了强化学习(RL)的领域。 接下来让我们学习 👇
3️⃣ 偏好微调(PFT) 你一定见过ChatGPT上的这个界面,它会问:你更喜欢哪个回答? 这不仅仅是为了反馈,而是宝贵的人类偏好数据。 OpenAI利用这些数据来通过偏好微调来优化他们的模型。 查看这个 👇
在PFT中: 用户在两个响应之间选择,以生成人类偏好数据。 然后训练一个奖励模型来预测人类偏好,并使用强化学习更新LLM。 查看这个👇
上述过程称为RLHF(带有人类反馈的强化学习),用于更新模型权重的算法称为PPO。 它教会LLM与人类对齐,即使没有“正确”的答案。 但我们可以进一步改善LLM。 接下来让我们学习👇
4️⃣ 推理微调 在推理任务(数学、逻辑等)中,通常只有一个正确的答案和一系列明确的步骤来获得答案。 因此,我们不需要人类的偏好,可以使用正确性作为信号。 这被称为推理微调👇
步骤: - 模型生成对提示的回答。 - 将回答与已知的正确答案进行比较。 - 根据正确性,我们分配奖励。 这被称为可验证奖励的强化学习。 DeepSeek 的 GRPO 是一种流行的技术。 查看这个👇
这些是从头开始训练法学硕士的 4 个阶段。 - 从随机初始化的模型开始。 - 在大规模语料库上对其进行预训练。 - 使用指令微调使其遵循命令。 - 使用偏好和推理微调来提高响应能力。 检查这个 👇
如果你觉得这很有启发性,请与您的网络分享。 找到我 → @_avichawla 每天,我都会分享关于数据科学、机器学习、大型语言模型和检索增强生成的教程和见解。
Avi Chawla
Avi Chawla2025年7月21日
从头开始训练LLMs的4个阶段,清晰解释(附视觉图):
@tasiorek27 强化微调: 指令微调:(这并不是关于训练本身,而是关于生成一个指令微调数据集)
Avi Chawla
Avi Chawla2025年5月6日
Let's generate our own LLM fine-tuning dataset (100% local):
714.03K