メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
分散型取引所API
DEX API を調べる
DEX API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
DAppでウォレットを連携する
Boost
X Launch
X Launch に参加してトークンを獲得できます。
プロジェクト特典
タスクを完了してエアドロップを手に入れよう
取引コンペティション
トレンドのトークンを取引して賞金を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
チュートリアル
詳しく知る
サポートセンター
What can I do with Discover
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+0.37%
USELESS
+1.88%
IKUN
-3%
gib
+16%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+2.87%
ALON
+0.18%
LAUNCHCOIN
-7.69%
GOONC
+7.09%
KLED
-3.01%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
-0.99%
Boopa
-2.16%
PORK
+10.15%
Profile
Gokul Rajaram
@MarathonMP
オリジナルを表示
Gokul Rajaram
8時間前
私がこれまで一緒に働いた中で最も印象的な会社の1つです。@cloudwalk has achieved $1b annualized revenue within six years.好調なスタートだが、ルイスが最初に言うだろうが、まだ1%<終わった。行きましょう!
2.91K
11
Gokul Rajaram
10月24日 05:13
AI 主導の住宅ローン プラットフォームにより、住宅所有をより手頃な価格でアクセスしやすくしてくれた @mwwhite と @Multiply Mortgage のチームに敬意を表します。PS:フォーブスでの素晴らしいプロフィール!
Michael White
10月24日 04:22
@WithMultiply@Forbesからの素晴らしいプロフィールと、フルフィルメントに対する当社のエージェント的アプローチと専門アドバイザーおよび雇用主の配分を組み合わせることで、家庭の手頃な価格が再び実現する方法。スレッド内のリンク
6.08K
8
Gokul Rajaram
10月23日 13:22
@DeepCogitoがセルフプレイを使用してモデルを構築している方法が大好きです - これにより、推論モードと非思考モードの両方でモデルがより優れていることがわかりました。 @drishanaroraと@DeepCogitoチームに敬意を表します!
Drishan Arora
10月22日 02:37
中間ステップで値関数を提供できれば、セルフプレイがLLMで機能する理由を直感的に簡単に理解できます(ただし、2人用のゼロサムゲームほど明確に保証されていません)。 チェス/ゴー/ポーカーでは、次の動きごとに報酬が伴いますが、ノームが指摘するように、自然言語は厄介です。トークンのような中間ステップで値関数を定義することは困難です。その結果、通常の強化学習 (RLVR など) では、LLM は最後に報酬を受け取ります。彼らは、難しい問題に対してもっと「蛇行」することを学ぶことになります。ある意味、ブルートフォースにより多くのトークンを与え、正しいアプローチとして正しい答えにたどり着くようにします。 しかし、@DeepCogitoでは、思考プロセス自体にシグナルを提供します。概念的には、これは、より良い検索軌道に報酬を事後に割り当てることであると想像できます。これにより、モデルは推論しながら「検索方法」についてより強い直感を発達させることができます。 実際には、モデルは推論モードでのより難しい問題に対して推論チェーンが大幅に短くなります。やや意外なことに、思考しないモードでも最終的には良くなります。それについて考える 1 つの方法は、モデルが検索方法をよりよく知っているため、非思考モードで最も可能性の高い軌道をより適切に「選択」するということです。
5.25K
7
トップ
ランキング
お気に入り