熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Matt Turck
再次未能理解指數增長?
我與 @Mononofu - Julian Schrittwieser (@AnthropicAI, AlphaGo Zero, MuZero) 的對話,討論了第37步、擴展強化學習、AI的諾貝爾獎以及AI的前沿:
00:00 - 冷開場:“我們沒有看到任何放緩。”
00:32 - 介紹 — 認識Julian
01:09 - 前沿實驗室內的“指數”
04:46 - 2026–2027:全天工作的代理;專家級的廣度
08:58 - 基準與現實:長期工作、GDP-Val、用戶價值
10:26 - 第37步 — 實際發生了什麼以及為什麼重要
13:55 - 新穎的科學:AlphaCode/AlphaTensor → AI何時能獲得諾貝爾獎?
16:25 - 不連續性與平滑進展(及警告信號)
19:08 - 預訓練 + RL 是否能讓我們達到目標?(AGI辯論不談)
20:55 - Sutton的“從零開始的RL”?Julian的看法
23:03 - Julian的路徑:Google → DeepMind → Anthropic
26:45 - AlphaGo(學習 + 搜索)用簡單的英語解釋
30:16 - AlphaGo Zero(無人類數據)
31:00 - AlphaZero(單一算法:圍棋、國際象棋、將棋)
31:46 - MuZero(使用學習的世界模型進行規劃)
33:23 - 當今代理的教訓:大規模搜索 + 學習
34:57 - LLM是否已經擁有隱含的世界模型?
39:02 - 為什麼在LLM上進行RL需要時間(穩定性、反饋循環)
41:43 - RL的計算與擴展 — 我們目前看到的
42:35 - 獎勵前沿:人類偏好、標準、RLVR、過程獎勵
44:36 - RL訓練數據與“飛輪”(以及為什麼質量很重要)
48:02 - RL與代理101 — 為什麼RL解鎖了穩健性
50:51 - 建設者應該使用RL作為服務嗎?還是僅僅使用工具 + 提示?
52:18 - 可靠代理所缺失的(能力與工程)
53:51 - 評估與Goodhart — 內部與外部基準
57:35 - 機械解釋性與“金門克勞德”
1:00:03 - Anthropic的安全性與對齊 — 如何在實踐中體現
1:03:48 - 工作:人類–AI的互補性(比較優勢)
1:06:33 - 不平等、政策,以及10倍生產力的理由 → 豐裕
1:09:24 - 結語
2.53K
我們是否誤解了 AI 的指數增長?
與 @Mononofu(@AnthropicAI 的 Julian Schrittwieser)進行的精彩對話,討論 Move 37、擴展強化學習和 AI 的前沿
00:00 - 冷開場:“我們沒有看到任何放緩。”
00:32 - 介紹 — Julian 是誰以及我們涵蓋的內容
01:09 - 前沿實驗室內的“指數”
04:46 - 2026–2027:全天工作的代理;專家級的廣度
08:58 - 基準與現實:長期工作、GDP-Val、用戶價值
10:26 - Move 37 — 實際發生了什麼以及為什麼重要
13:55 - 新穎的科學:AlphaCode/AlphaTensor → AI 何時能獲得諾貝爾獎?
16:25 - 不連續性與平滑進展(以及警告信號)
19:08 - 預訓練 + 強化學習能讓我們達到目標嗎?(AGI 辯論不談)
20:55 - Sutton 的“從零開始的強化學習”?Julian 的看法
23:03 - Julian 的路徑:Google → DeepMind → Anthropic
26:45 - AlphaGo(學習 + 搜索)用簡單的英文解釋
30:16 - AlphaGo Zero(無人類數據)
31:00 - AlphaZero(單一算法:圍棋、國際象棋、將棋)
31:46 - MuZero(使用學習的世界模型進行規劃)
33:23 - 對當今代理的教訓:搜索 + 大規模學習
34:57 - LLM 是否已經擁有隱含的世界模型?
39:02 - 為什麼在 LLM 上進行強化學習需要時間(穩定性、反饋循環)
41:43 - 強化學習的計算與擴展 — 我們目前看到的
42:35 - 獎勵前沿:人類偏好、標準、RLVR、過程獎勵
44:36 - 強化學習訓練數據與“飛輪”(以及為什麼質量很重要)
48:02 - 強化學習與代理 101 — 為什麼強化學習解鎖了穩健性
50:51 - 建設者應該使用強化學習即服務嗎?還是僅僅使用工具 + 提示?
52:18 - 可靠代理缺少什麼(能力與工程)
53:51 - 評估與 Goodhart — 內部與外部基準
57:35 - 機械解釋性與“金門克勞德”
1:00:03 - Anthropic 的安全性與對齊 — 如何在實踐中體現
1:03:48 - 工作:人類與 AI 的互補性(比較優勢)
1:06:33 - 不平等、政策,以及 10 倍生產力的案例 → 豐裕
1:09:24 - 結語
1.8K
熱門
排行
收藏

