さて、ワークアウトセッション中に掘り下げることができた@Extropic_AI(@BasedBeffJezos)の基本的な読み物です。 TLDR: 標準的な推論では、一連の行列計算と並列行列計算の両方を行う必要がありますが、最終的には確率的サンプリングに要約されます。Extropic は、その数学的メカニズムをすべてバイパスし、代わりに、基礎となるトレーニング セットの学習した確率分布とハードウェアから直接サンプルを埋め込むチップを構築しています。 これはとてもかっこいいです!
最も基本的なレベルでは、LLM はトークンで構成される巨大なトレーニング セットを取得し、単語や文などの間の構造を学習します。彼らは推論していませんが、実際には、トークン間の非常に複雑な確率分布を学習しています。 たとえば、「空は何色ですか」と尋ねると、学習したPDで調高し、最も高い確率のシーケンスとして["The", "color", "of", "the", "sky", "is", "blue"]が表示されます。これは、行列計算をたくさん行うことでたどり着きました。この仕組みを学びたい場合は、トランスフォーマーの元の論文を読むことができますが、正直なところ、それほど重要ではありません。 重要なのはこれです。 1. トレーニングステップ: 入力大規模なデータセット --> トークンの出力確率分布。 2. 推論ステップ: 確率サンプリングの下での入力クエリ --> 出力マッピング。 ところで、後から考えると本当にクールな(やや明白な結果ではありますが)は...LLM は単射的で可逆的です。これは、プロンプトから潜在空間へ、またはその逆に固有のマッピングがあることを意味します。ヘラクール!
とにかく、とてもクールな仕事です エクストロピックチーム! ところで、今日はレッグデーで、それは輝かしいものでした。
39.7K