メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
分散型取引所API
DEX API を調べる
DEX API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
DAppでウォレットを連携する
Boost
X Launch
X Launch に参加してトークンを獲得できます。
プロジェクト特典
タスクを完了してエアドロップを手に入れよう
取引コンペティション
トレンドのトークンを取引して賞金を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
チュートリアル
詳しく知る
サポートセンター
What can I do with Discover
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+11.39%
USELESS
+6.64%
IKUN
+1.73%
gib
+7.95%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+2.02%
ALON
-0.29%
LAUNCHCOIN
-3.3%
GOONC
+2.47%
KLED
+0.51%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+0.19%
Boopa
-5.53%
PORK
-4.05%
Profile
Ariel
Ariel
10月22日 21:55
OpenAI:ブラウザを出荷 Anthropic: ブログ投稿を出荷します ディープマインド:ナビエストークスを解く メタ:。。。クソ、レイオフをしよう
200.58K
3.56K
Ariel
10月19日 06:22
嫌いではありませんが、$4.2M RL スケーリングの論文は、それが何であるかについては少し誇大宣伝されているようですか?新聞自体によって少し、さらにツイッターのポーターによって。 最初の読みからは、GRPOのさらに別の調整セットのように見えますが、今回は異なるコンピューティングバジェットでトレーニングされていますが、重要なのは、比較的小規模なモデル(Llama 3 8B、およびLlama 4 Scout)と、100%数学の質問である1つのデータセットでのみトレーニングされています。 主な目新しさは、報酬グラフに曲線をはめ込んだことですが、これは、ええと、クールだと思いますか? 一番上のチェリーは、 'from scipy.optimize import curve_fit'を中心とした1つのファイルであるコードリポジトリです 私はより原則的なRL研究に賛成ですが、RLトレーニング環境がプレトレーニングデータセットよりも多様であることは間違いありません。さらに、巨大なモデル (>100B?) の RL は、小型モデルとは質的に異なる獣であるという、私はまだこっそりと疑っています (そして検証する予算はありません)。 LLM スケーリング法則の優れた点は、特定の予算に対して、いくつかのハイパーパラメーターをアプリオリに推定できるため、ハイパーパラメーターの推測を節約できることです。ここで同様の洞察を見つけるのに苦労しています。 しかし、400k GPU 時間を使用しました。
42.66K
84
トップ
ランキング
お気に入り