トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Prime Intellect
Prime Intellect reposted
事前トレーニングの時代には、重要なのはインターネットテキストでした。主に、学習するための大規模で多様で高品質のインターネットドキュメントのコレクションが必要です。
監視された微調整の時代には、それは会話でした。契約社員は、Stack Overflow や Quora などで見られるものと少し似ていますが、LLM のユースケースを対象としています。
上記の2つはどちらもなくなるわけではありませんが(imo)、この強化学習の時代では、それは今や環境です。上記とは異なり、LLM に実際に対話する機会を与えます - アクションを実行したり、結果を確認したりします。これは、統計的な専門家の模倣よりもはるかに良いことを期待できることを意味します。また、モデルのトレーニングと評価の両方に使用できます。しかし、以前と同様に、今の中心的な問題は、LLM が練習するための演習として、大規模で多様で高品質の環境セットが必要になることです。
ある意味、OpenAI の最初のプロジェクト (gym) を思い出しますが、これはまさに同じスキーマで環境の大規模なコレクションを構築することを望んでいるフレームワークでしたが、これは LLM のずっと前のことでした。つまり、環境はカートポールやATARIなど、当時の単純な学術的な制御タスクでした。@PrimeIntellect環境ハブ (および GitHub の「検証者」リポジトリ) は、特に LLM を対象とした最新バージョンを構築しており、これは大きな努力/アイデアです。私は今年の初めに誰かに同様のものを作るように提案しました。
環境には、フレームワークの骨格が整えば、原則としてコミュニティ/業界が多くの異なるドメインにわたって並列化できるという特性があり、これはエキサイティングです。
最終的な考え - 個人的にも長期的にも、私は環境とエージェントの相互作用には強気ですが、特に強化学習には弱気です。報酬関数は超素晴らしいものだと思いますし、人間は学習にRLを使わないと思います(運動タスクなどには使いますが、知的問題解決タスクには使わないかもしれません)。人間は、はるかに強力でサンプル効率が高く、初期のスケッチやアイデアは存在しますが、まだ適切に発明され、拡張されていないさまざまな学習パラダイムを使用しています(ほんの一例として、「システムプロンプト学習」のアイデアは、更新を重みではなくトークン/コンテキストに移動し、オプションで睡眠のように別のプロセスとして重みに蒸留します)。
302.23K
Prime Intellect reposted
次世代の10B+バリュエーション製品スタートアップは、社内のRL環境でのトレーニングを拡張することで構築されます
私たちは豊富な機能の中で生活していますが、主要な AI 製品は chatgpt とコーディング エージェントの 2 つしかなく、非常にイライラしています
現在の人工知能のサプライチェーンは、1つのハードウェアベンダー、すべてのインテリジェンス精製所を所有する数人の巨大AIプレーヤー、開発者はほとんど制御できないAPIアクセスのままになっていることで構造的に壊れています
あたかもインターネット時代が構築されたかのように、Intelは4つの巨大なクラウドにCPUを販売し、インフラストラクチャとソフトウェアスタック全体を所有し、秘密とndaをあちこちに所有し、スタートアップに開発キットとしてwordpressを与えました
なぜ困惑は深い研究を発明しなかったのですか?RLでトレーニングしているので、彼らはできませんでした
今後数年間の私の予測:
RLは、スタートアップを構築するための最も強力なツールキットになります。カーソルや愛らしいサクセスストーリーが何百もあるでしょう。エンドユーザーはその恩恵を最も受けます
大手ラボは製品会社へと進化し、oaiは消費者市場に焦点を当て、Antropicはコーディングエージェントに、deepmindはAIをすべてのGoogleビジネスに統合し、メタとXAIはソーシャルメディアをめぐる戦い
オープンサイエンスとオープンソースソフトウェアを活用した、AIインフラスタートアップ、コンピューティングの販売、基盤モデルのトレーニング、データのキュレーション、RL環境の構築、安価な推論とトレーニングの提供などのエコシステムの出現が見られます。
このエコシステムとオープンソースAGIのビジョンを開拓している@PrimeIntellect、RL環境ハブは最初の重要な部分の1つです
3.2K
Prime Intellect reposted
次世代の10B+バリュエーション製品スタートアップは、社内のRL環境でのトレーニングを拡張することで構築されます
私たちは豊富な機能の中で生活していますが、主要な AI 製品は chatgpt とコーディング エージェントの 2 つしかなく、非常にイライラしています
現在の人工知能のサプライチェーンは、1つのハードウェアベンダー、すべてのインテリジェンス精製所を所有する数人の巨大AIプレーヤー、開発者はほとんど制御できないAPIアクセスのままになっていることで構造的に壊れています
あたかもインターネット時代が構築されたかのように、Intelは4つの巨大なクラウドにCPUを販売し、インフラストラクチャとソフトウェアスタック全体を所有し、秘密とndaをあちこちに所有し、スタートアップに開発キットとしてwordpressを与えました
なぜ困惑は深い研究を発明しなかったのですか?RLでトレーニングしているので、彼らはできませんでした
**今後数年間の私の予測**:
RLは、スタートアップを構築するための最も強力なツールキットになります。カーソルや愛らしいサクセスストーリーが何百もあるでしょう。エンドユーザーはその恩恵を最も受けます
大手ラボは製品会社へと進化し、oaiは消費者市場に焦点を当て、Antropicはコーディングエージェントに、deepmindはAIをすべてのGoogleビジネスに統合し、メタとXAIはソーシャルメディアをめぐる戦い
オープンサイエンスとオープンソースソフトウェアを活用した、AIインフラスタートアップ、コンピューティングの販売、基盤モデルのトレーニング、データのキュレーション、RL環境の構築、安価な推論とトレーニングの提供などのエコシステムの出現が見られます。
このエコシステムとオープンソースAGIのビジョンを開拓している@PrimeIntellect、RL環境ハブは最初の重要な部分の1つです
6.39K
トップ
ランキング
お気に入り