LLM をゼロからトレーニングする 4 つの段階を明確に説明 (ビジュアル付き):
今日は、LLM をゼロから構築して、実際のユースケースに適用できるようにする 4 つの段階について説明します。 以下について説明します。 - 事前トレーニング - 命令の微調整 - 設定の微調整 - 推論の微調整 ビジュアルは、これらの手法を要約しています。 飛び込んでみましょう!
0️⃣ ランダムに初期化されたLLM この時点で、モデルは何も知りません。 「LLMとは何ですか?」と尋ねると、「ピーター・ハンドを試してみてください、こんにちは448Sn」のような意味不明な言葉が返ってきます。 まだデータを見ておらず、ランダムな重みのみを持っています。 これを👇チェックしてください
1️⃣ 事前トレーニング この段階では、LLM に言語の基礎を教え、次のトークンを予測するために大規模なコーパスで言語をトレーニングします。このようにして、文法や世界の事実などを吸収します。 しかし、プロンプトが出るとテキストを続けるだけなので、会話は苦手です。 これを👇チェックしてください
2️⃣ 命令の微調整 会話型にするために、命令と応答のペアをトレーニングして命令の微調整を行います。これは、プロンプトに従い、返信の書式を設定する方法を学ぶのに役立ちます。 これで、次のことができるようになります。 - 質問に答える - コンテンツを要約する - コードを書くなど これを👇チェックしてください
この時点で、次の可能性があります。 - 生のインターネットアーカイブと知識全体を活用しました。 - 人間がラベル付けした指示応答データの予算。 では、モデルをさらに改善するにはどうすればよいでしょうか? 強化学習(RL)の領域に入ります。 次に👇学びましょう
3️⃣ プリファレンス微調整 (PFT) ChatGPT で次の画面を見たことがあるはずです。どの応答が好きですか? これはフィードバックだけでなく、貴重な人間の好みデータです。 OpenAI はこれを使用して、設定の微調整を使用してモデルを微調整します。 これを👇チェックしてください
PFT の場合: ユーザーは 2 つの応答から選択して、人間の好みデータを生成します。 次に、報酬モデルが人間の好みを予測するようにトレーニングされ、LLM が RL を使用して更新されます。 これを👇チェックしてください
上記のプロセスはRLHF(Reinforcement Learning with Human Feedback)と呼ばれ、モデルの重みを更新するために使用されるアルゴリズムはPPOと呼ばれます。 これは、「正しい」答えがない場合でも、LLM に人間と足並みを揃えるように教えます。 しかし、LLM をさらに改善することはできます。 次に👇学びましょう
4️⃣推論の微調整 推論タスク (数学、論理など) では、通常、正解は 1 つだけで、答えを得るための一連のステップが定義されています。 したがって、人間の好みは必要なく、正しさをシグナルとして使用できます。 これを推論の微調整👇と呼びます
ステップス: - モデルはプロンプトに対する回答を生成します。 - 答えは既知の正解と比較されます。 - 正しさに基づいて、報酬を割り当てます。 これは、検証可能な報酬を伴う強化学習と呼ばれます。 DeepSeekのGRPOは人気のある手法です。 これを👇チェックしてください
これらは、LLMをゼロからトレーニングする4つの段階でした。 - ランダムに初期化されたモデルから始めます。 - 大規模なコーパスで事前トレーニングします。 - 命令の微調整を使用して、コマンドに従うようにします。 - 好みと推論の微調整を使用して、応答をシャープにします。 これを👇チェックしてください
洞察力に富んでいると感じた場合は、ネットワークで再共有してください。 → @_avichawla探して 私は毎日、DS、ML、LLM、RA に関するチュートリアルと洞察を共有しています。
Avi Chawla
Avi Chawla2025年7月21日
LLM をゼロからトレーニングする 4 つの段階を明確に説明 (ビジュアル付き):
@tasiorek27 鉄筋の微調整: 命令の微調整: (これは、命令の微調整データセットを生成することによるトレーニング自体に関するものではありません)
Avi Chawla
Avi Chawla2025年5月6日
Let's generate our own LLM fine-tuning dataset (100% local):
714.03K