分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

LLM をゼロからトレーニングする 4 つの段階を明確に説明 (ビジュアル付き):

今日は、LLM をゼロから構築して、実際のユースケースに適用できるようにする 4 つの段階について説明します。以下について説明します。 - 事前トレーニング - 命令の微調整 - 設定の微調整 - 推論の微調整ビジュアルは、これらの手法を要約しています。飛び込んでみましょう!

0️⃣ ランダムに初期化されたLLM この時点で、モデルは何も知りません。「LLMとは何ですか?」と尋ねると、「ピーター・ハンドを試してみてください、こんにちは448Sn」のような意味不明な言葉が返ってきます。まだデータを見ておらず、ランダムな重みのみを持っています。これを👇チェックしてください

1️⃣ 事前トレーニングこの段階では、LLM に言語の基礎を教え、次のトークンを予測するために大規模なコーパスで言語をトレーニングします。このようにして、文法や世界の事実などを吸収します。しかし、プロンプトが出るとテキストを続けるだけなので、会話は苦手です。これを👇チェックしてください

2️⃣ 命令の微調整会話型にするために、命令と応答のペアをトレーニングして命令の微調整を行います。これは、プロンプトに従い、返信の書式を設定する方法を学ぶのに役立ちます。これで、次のことができるようになります。 - 質問に答える - コンテンツを要約する - コードを書くなどこれを👇チェックしてください

この時点で、次の可能性があります。 - 生のインターネットアーカイブと知識全体を活用しました。 - 人間がラベル付けした指示応答データの予算。では、モデルをさらに改善するにはどうすればよいでしょうか? 強化学習(RL)の領域に入ります。次に👇学びましょう

3️⃣ プリファレンス微調整 (PFT) ChatGPT で次の画面を見たことがあるはずです。どの応答が好きですか? これはフィードバックだけでなく、貴重な人間の好みデータです。 OpenAI はこれを使用して、設定の微調整を使用してモデルを微調整します。これを👇チェックしてください

PFT の場合: ユーザーは 2 つの応答から選択して、人間の好みデータを生成します。次に、報酬モデルが人間の好みを予測するようにトレーニングされ、LLM が RL を使用して更新されます。これを👇チェックしてください

上記のプロセスはRLHF(Reinforcement Learning with Human Feedback)と呼ばれ、モデルの重みを更新するために使用されるアルゴリズムはPPOと呼ばれます。これは、「正しい」答えがない場合でも、LLM に人間と足並みを揃えるように教えます。しかし、LLM をさらに改善することはできます。次に👇学びましょう

4️⃣推論の微調整推論タスク (数学、論理など) では、通常、正解は 1 つだけで、答えを得るための一連のステップが定義されています。したがって、人間の好みは必要なく、正しさをシグナルとして使用できます。これを推論の微調整👇と呼びます

ステップス： - モデルはプロンプトに対する回答を生成します。 - 答えは既知の正解と比較されます。 - 正しさに基づいて、報酬を割り当てます。これは、検証可能な報酬を伴う強化学習と呼ばれます。 DeepSeekのGRPOは人気のある手法です。これを👇チェックしてください

これらは、LLMをゼロからトレーニングする4つの段階でした。 - ランダムに初期化されたモデルから始めます。 - 大規模なコーパスで事前トレーニングします。 - 命令の微調整を使用して、コマンドに従うようにします。 - 好みと推論の微調整を使用して、応答をシャープにします。これを👇チェックしてください

洞察力に富んでいると感じた場合は、ネットワークで再共有してください。 → @_avichawla探して私は毎日、DS、ML、LLM、RA に関するチュートリアルと洞察を共有しています。

@tasiorek27 鉄筋の微調整: 命令の微調整: (これは、命令の微調整データセットを生成することによるトレーニング自体に関するものではありません)

714.03K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable