跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
+0.69%
USELESS
+3.4%
IKUN
-2.91%
gib
-17.1%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
+1.05%
ALON
-4.82%
LAUNCHCOIN
+0.57%
GOONC
+4.07%
KLED
+0.47%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.67%
Boopa
+0.17%
PORK
-3.41%
主頁
Teknium (e/λ)
Teknium (e/λ)
5 小時前
我真的希望這些推文都是公開的網路部落格——這個平台上有如此多的知識和專業經驗的見解,而埃隆卻把這一切鎖起來了——如果你仔細想想,互聯網變成了什麼/正在變成什麼,真的讓人感到沮喪(在我看來)
Noam Brown
12 小時前
以下是深入探討為什麼自我對弈在像圍棋/撲克/星際爭霸這樣的兩人零和(2p0s)遊戲中有效,但在「現實世界」領域中卻難以使用的原因。簡而言之:自我對弈在2p0s遊戲中收斂到最小最大值,而最小最大值在這些遊戲中非常有用。 每個有限的2p0s遊戲都有一個最小最大值均衡,這本質上是一種在期望上無法被擊敗的策略(假設玩家交替出牌)。例如,在石頭剪刀布中,最小最大值在每個行動上都是1/3。 最小最大值是我們想要的嗎?不一定。如果你在石頭剪刀布中使用最小最大值,而大多數對手的策略是「總是出石頭」,那麼你顯然是次優的,即使你在期望上不會輸。這在撲克這樣的遊戲中特別重要,因為使用最小最大值意味著你可能無法從弱玩家那裡獲得你本可以最大化的利潤。 但「你不會在期望上輸」的保證是非常好的。在像國際象棋和圍棋這樣的遊戲中,最小最大值策略和最佳利用對手群體的策略之間的差異微不足道。因此,最小最大值通常被認為是兩人零和遊戲的目標。即使在撲克中,頂尖專業人士的傳統智慧也是玩最小最大值(遊戲理論最佳),然後只有在發現對手明顯弱點時才偏離。 即使從零開始,健全的自我對弈也保證在有限的2p0s遊戲中收斂到最小最大值均衡。這真是太棒了!只需擴展記憶體和計算能力,並且不需要人類數據,我們就能收斂到一種在期望上無法被擊敗的策略。 那麼非2p0s遊戲呢?可悲的是,純自我對弈,沒有任何人類數據,已不再保證收斂到有用的策略。這在最後通牒遊戲中可以清楚地看到。愛麗絲必須給鮑勃提供$0-100。然後鮑勃接受或拒絕。如果鮑勃接受,則根據愛麗絲的提議分配金錢。如果鮑勃拒絕,則兩人都獲得$0。 均衡(具體來說,子遊戲完美均衡)策略是提供1美分,然後鮑勃接受。但在現實世界中,人們並不是這麼理性。如果愛麗絲試圖用這種策略與真實人類互動,她將會得到很少的錢。自我對弈變得與我們人類認為有用的東西脫節。 許多人提出了像「一個LLM老師提出困難的數學問題,而一個學生LLM試圖解決它們」這樣的遊戲來實現自我對弈訓練,但這與最後通牒遊戲面臨類似的問題,即均衡與我們人類認為有用的東西脫節。 在這樣的遊戲中,老師的獎勵應該是什麼?如果是2p0s,那麼如果學生無法解決問題,老師就會獲得獎勵,因此老師會提出不可能的問題。好吧,如果我們根據學生的成功率為50%來獎勵呢?那麼老師可以隨便擲硬幣,問學生是否是正面。或者老師可以要求學生通過穷举密钥搜索來解密一條消息。為了實現預期行為而進行獎勵塑造成為一個主要挑戰。在2p0s遊戲中這不是問題。 我確實相信自我對弈。它提供了無限的訓練來源,並且不斷將代理與同等技能的對手匹配。我們也看到它在一些複雜的非2p0s環境中有效,如外交和花火。但在2p0s遊戲之外應用它比在圍棋、撲克、Dota和星際爭霸中要困難得多。
9.34K
80
Teknium (e/λ)
5 小時前
這真是搞笑
near
13 小時前
這引起了很多關注,哇 顯然8sleep的故障比我想的還要糟糕,不僅是冷卻系統出問題,還有人的床出現故障,隨機加熱,卡在各種姿勢中 我還了解到8sleep床的遙測數據是每月16GB!應用程式有朋友+GPS功能
4.95K
12
Teknium (e/λ)
12 小時前
就讓人工智慧自由漫遊吧
3.23K
30
熱門
排行
收藏