熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Jason Wei
超級智能實驗室@meta人工智能研究員,曾任職:OpenAI、谷歌 🧠
Jason Wei 已轉發
這是我兩個月前在@Cornell的講座
“我該如何增加我的產出?”一個自然的答案是“我只會再工作幾個小時。工作更長的時間會有所幫助,但最終你會達到身體極限。
一個更好的問題是,“如何在不增加輸入的情況下增加產出?這就是槓桿作用。
我們經常聽到“槓桿”,以至於它的含義很容易被忽視。我個人最喜歡的槓桿分類是 Naval Ravikant:人力、資本和代碼/媒體。每一個都推動了歷史上財富創造的重大浪潮。
然而,一旦槓桿來源變得流行(想想今天的 YouTube 頻道與十年前的 YouTube 頻道),競爭就會壓縮利潤。因此,當新的槓桿出現時,這是一個難得的機會獲得巨大的收益。
在本次演講中,我將人工智慧描述為新興的槓桿。AI 代理將勞動力槓桿(它確實為您工作並且無需許可)與代碼槓桿(您可以複製並粘貼它)混合在一起。
說人工智慧將創造巨額財富是陳詞濫調。但使用這種槓桿視角,讓我們能夠以一致的方式解讀嘈雜的 AI 新聞週期,並發現真正的機會。
感謝@unsojo接待我!
402.55K
關於驗證不對稱和「驗證者定律」的新部落格文章:
驗證的不對稱性——某些任務比解決更容易的想法——正在成為一個重要的想法,因為我們有了最終普遍有效的 RL。
驗證不對稱的很好的例子是數獨謎題、為 Instagram 等網站編寫代碼以及 BrowseComp 問題(需要 ~100 個網站才能找到答案,但一旦找到答案就很容易驗證)。
其他任務具有近乎對稱的驗證,例如將兩個 900 位數字相加或一些數據處理腳本。然而,其他任務提出可行的解決方案比驗證它們要容易得多(例如,對一篇長文進行事實核查或陳述一種新的飲食習慣,例如“只吃野牛”)。
關於驗證的不對稱性,需要了解的一件重要事情是,您可以通過事先做一些工作來改善不對稱性。例如,如果您有數學問題的答案鍵,或者您有 Leetcode 問題的測試用例。這大大增加了理想驗證不對稱的一組問題。
「驗證者定律」指出,訓練人工智慧解決任務的難易程度與任務的可驗證性成正比。所有可以解決且易於驗證的任務都將由人工智慧解決。訓練 AI 解決任務的能力與任務是否具有以下屬性成正比:
1.客觀真相:大家都同意什麼是好的解決方案
2. 快速驗證:任何給定的解決方案都可以在幾秒鐘內驗證
3. 可擴展驗證:可同時驗證多種解決方案
4. 低雜訊:驗證與解決方案品質盡可能緊密相關
5. 持續獎勵:對於單一問題,很容易對多種解決方案的優劣進行排名
驗證者定律的一個明顯實例是,人工智慧中提出的大多數基準測試都很容易驗證,並且迄今為止已經解決。請注意,過去十年中幾乎所有流行的基準都符合標準 #1-4;不符合標準 #1-4 的基準將很難流行。
為什麼可驗證性如此重要?當滿足上述標準時,人工智慧中發生的學習量會最大化;您可以採取許多梯度步驟,其中每個步驟都有很多訊號。迭代速度至關重要,這就是數位世界的進步比實體世界的進步快得多的原因。
Google 的 AlphaEvolve 是利用驗證不對稱性的最佳例子之一。它專注於符合上述所有標準的設置,並在數學和其他領域取得了許多進步。與我們過去二十年來在人工智慧領域所做的不同,這是一種新的範式,因為所有問題都在訓練集等同於測試集的環境中進行最佳化。
驗證的不對稱性無處不在,考慮到一個鋸齒狀的智能世界,我們可以測量的任何事情都將得到解決,這是令人興奮的。

299.17K
直截了當,我立刻讀了

Kevin Lu2025年7月10日
為什麼你應該停止從事強化學習研究,而應該專注於產品 //
解鎖人工智慧大規模擴展轉變的技術是互聯網,而不是變壓器
我想大家都知道數據在人工智慧中是最重要的東西,但研究人員卻選擇不去研究它。... 在可擴展的方式上,研究數據意味著什麼?
互聯網提供了豐富的數據來源,這些數據不僅豐富多樣,還提供了自然的課程,代表了人們真正關心的能力,並且是一種經濟上可行的技術,可以大規模部署——它成為了下一個標記預測的完美補充,並且是人工智慧起飛的原始湯。
如果沒有變壓器,任何數量的方法都可能起飛,我們可能會有 CNN 或狀態空間模型達到 GPT-4.5 的水平。但自從 GPT-4 以來,基礎模型並沒有顯著改善。推理模型在狹窄的領域中表現出色,但並不像 GPT-4 在 2023 年 3 月(兩年多前)那樣有巨大的飛躍。
我們在強化學習方面有一些偉大的東西,但我深深擔心我們會重蹈過去的覆轍(2015-2020 年代的強化學習),進行不重要的強化學習研究。
就像互聯網是監督預訓練的對偶一樣,什麼將是強化學習的對偶,將導致像 GPT-1 -> GPT-4 這樣的重大進展?我認為這看起來像是研究-產品共同設計。

18.91K
我們還沒有 AI 的自我提升能力,當我們這樣做時,它將改變遊戲規則。與 GPT-4 相比,現在有了更多的智慧,很明顯它不會是“快速起飛”,而是在很多年,可能是十年內極其漸進的。
首先要知道的是,自我提升,即模型自我訓練,不是二元的。考慮一下 GPT-5 訓練 GPT-6 的場景,這將是不可思議的。GPT-5 會突然從根本無法訓練 GPT-6 變成訓練得非常熟練嗎?絕對不是。與人類研究人員相比,第一次 GPT-6 訓練運行在時間和計算方面可能非常低效。只有經過多次試驗,GPT-5 才能真正比人類更好地訓練 GPT-6。
其次,即使模型可以自我訓練,它也不會突然在所有領域變得更好。在各個領域提高自己的難度是有梯度的。例如,也許自我提升一開始只對我們已經知道如何在訓練后輕鬆解決的領域起作用,比如基本的幻覺或風格。接下來是數學和編碼,這需要更多的工作,但已經建立了改進模型的方法。然後在極端情況下,你可以想像有一些任務對於自我提升來說非常困難。例如,能夠說特林吉特語,這是一種有 ~500 人使用的美洲原住民語言。該模型很難在說特林吉特語方面進行自我改進,因為除了收集更多需要時間的數據外,我們還沒有辦法解決像這樣的低資源語言。因此,由於自我提升的難度梯度,它不會一下子全部發生。
最後,也許這是有爭議的,但最終科學進步受到現實世界實驗的阻礙。有些人可能認為閱讀所有生物學論文會告訴我們治癒癌症的方法,或者閱讀所有 ML 論文並掌握所有數學可以讓你完美地訓練 GPT-10。如果是這樣的話,那麼閱讀最多論文和研究最多理論的人將是最好的 AI 研究人員。但實際發生的事情是,人工智慧(和許多其他領域)變得由無情的實證研究人員主導,這反映了有多少進步是基於現實世界的實驗,而不是原始的智慧。所以我的觀點是,儘管超級智慧代理可能會設計出比我們最好的人類研究人員好 2 倍甚至 5 倍的實驗,但歸根結底,他們仍然必須等待實驗運行,這將是一種加速,但不是快速起飛。
總而言之,進步存在許多瓶頸,而不僅僅是原始的智力或自我提升的系統。AI 將解決許多領域,但每個領域都有自己的進展速度。即使是最高的智慧,也仍然需要在現實世界中進行實驗。所以這將是一個加速,而不是快速起飛,謝謝你閱讀我的咆哮
340.21K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可