跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-4.51%
USELESS
-10.24%
IKUN
-13.49%
gib
-11.52%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-11.83%
ALON
-6.45%
LAUNCHCOIN
+45.42%
GOONC
-16.22%
KLED
-4.13%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-17.69%
Boopa
-17.36%
PORK
-20.68%
主頁
pash
現任人工智慧@cline負責人 |上一篇 @meta 知識圖譜 |Vault 的創建者 // @usc 校友
查看原文
pash
2025年10月30日
終於找到了一個子代理的好用例。通過自動從現實世界任務數據構建強化學習環境,使政策模型更智能。 天啊,這真的有效!
11.76K
123
pash
2025年10月28日
這很難表達這將在多大程度上加速 AI 進步的時間表。 我只想要一件事,這太瘋狂了。
will brown
2025年10月28日
如果你或你所愛的人想要學習如何建立環境並在過程中獲得獎勵,請內部詢問 我們的獎勵名單比以往更大更好
12.49K
28
pash
2025年10月25日
網路上對於什麼是 RL 環境存在很多混淆。 它實際上只是一個基準。 - 一個環境 - 一個起始狀態 - 一個驗證器,用來檢查最終狀態是否正確或可接受 環境是一個小沙盒,讓 LLM 有機會實際互動——採取行動、查看結果並影響它所處的世界。在 TerminalBench 的情況下,它只是一個模擬真實開發者終端的 Docker 容器,裡面有模型可以使用的文件、依賴項和系統工具。 起始狀態定義了模型在任務開始時看到的內容——輸入、上下文和初始條件。在編碼基準中,這可能是用戶首次開始工作時 Git 倉庫的狀態:文件、錯誤報告、失敗的測試,以及告訴模型需要做什麼的用戶起始提示。這是“問題設置”,凍結在時間中,因此每個模型都從相同的位置開始,結果可以公平比較。 最後,驗證器是使整個過程可測量的部分。它是檢查模型是否實際解決了任務的部分——將混亂的輸出轉換為簡單分數或通過/失敗信號的自動評判者。 這就是為什麼你會聽到實驗室的人說“我們在驗證器上進行了訓練”。他們在談論有一種自動化的方式來評分模型行為。這隨後成為 RL 的獎勵函數,或基準的通過/失敗信號。
13.62K
108
熱門
排行
收藏