トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
事前トレーニングの時代には、重要なのはインターネットテキストでした。主に、学習するための大規模で多様で高品質のインターネットドキュメントのコレクションが必要です。
監視された微調整の時代には、それは会話でした。契約社員は、Stack Overflow や Quora などで見られるものと少し似ていますが、LLM のユースケースを対象としています。
上記の2つはどちらもなくなるわけではありませんが(imo)、この強化学習の時代では、それは今や環境です。上記とは異なり、LLM に実際に対話する機会を与えます - アクションを実行したり、結果を確認したりします。これは、統計的な専門家の模倣よりもはるかに良いことを期待できることを意味します。また、モデルのトレーニングと評価の両方に使用できます。しかし、以前と同様に、今の中心的な問題は、LLM が練習するための演習として、大規模で多様で高品質の環境セットが必要になることです。
ある意味、OpenAI の最初のプロジェクト (gym) を思い出しますが、これはまさに同じスキーマで環境の大規模なコレクションを構築することを望んでいるフレームワークでしたが、これは LLM のずっと前のことでした。つまり、環境はカートポールやATARIなど、当時の単純な学術的な制御タスクでした。@PrimeIntellect環境ハブ (および GitHub の「検証者」リポジトリ) は、特に LLM を対象とした最新バージョンを構築しており、これは大きな努力/アイデアです。私は今年の初めに誰かに同様のものを作るように提案しました。
環境には、フレームワークの骨格が整えば、原則としてコミュニティ/業界が多くの異なるドメインにわたって並列化できるという特性があり、これはエキサイティングです。
最終的な考え - 個人的にも長期的にも、私は環境とエージェントの相互作用には強気ですが、特に強化学習には弱気です。報酬関数は超素晴らしいものだと思いますし、人間は学習にRLを使わないと思います(運動タスクなどには使いますが、知的問題解決タスクには使わないかもしれません)。人間は、はるかに強力でサンプル効率が高く、初期のスケッチやアイデアは存在しますが、まだ適切に発明され、拡張されていないさまざまな学習パラダイムを使用しています(ほんの一例として、「システムプロンプト学習」のアイデアは、更新を重みではなくトークン/コンテキストに移動し、オプションで睡眠のように別のプロセスとして重みに蒸留します)。

20時間前
環境ハブの紹介
RL環境は、AIの進歩の次の波の主要なボトルネックですが、大手ラボはそれらをロックダウンしています
オープン環境をクラウドソーシングするためのコミュニティプラットフォームを構築し、誰でもオープンソースのAGIに貢献できるようにしました
520.32K
トップ
ランキング
お気に入り