熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Aaron Levie
CEO @box - 利用 AI 釋放內容的力量
任何在企業環境中從事 AI 代理工作的人,整個過程中都會對 Karpathy 的播客點頭贊同。
要讓這一切在規模上運作,還有很多東西需要建設。自駕車的類比尤其恰當——每增加 9 的可靠性都需要大量的工作。90%、99%、99.9% 都是新的複雜性層次,往往需要新的突破、更多的數據等等。
然而,與自駕車相比,AI 代理在知識工作中的一個好處是,你可以隨時通過調整人類參與者的工作來獲得價值。
自駕車在與其他駕駛者安全行駛的情況下幾乎是一個二元事件,但選擇讓 AI 完成 1 分鐘的任務,然後是 10 分鐘的任務,再到 100 分鐘的任務,隨著能力的提高,則在整個過程中增添了增量價值。

samsja22 小時前
karpahty 確認了他作為最具平衡感和現實觀點的 GOAT 的地位
不明白為什麼大家都在說泡沫的頂峰,而他明明說過我們可能沒有過度建設,並且 claude code / codex 在一年前甚至還不存在,
他只是對你們所有人過早地稱呼 agi 過於反應,並說軟體工程已經死了
此外,當他說 RL 糟糕時,他只是說我們在一年內會有更好的算法,這顯然是事實
我希望他們能做一個 6 小時的訪談
58.43K
Karpathy 在 Dwarkesh 播客中提到的一個關鍵點是 AI 編碼代理與其他知識工作之間的區別。
顯然,AI 代理在編碼方面的發展非常迅速。這背後有很多原因,包括相較於其他領域,已有大量的訓練數據在線上,開發者也很快會嘗試新工具,而實驗室則有很大的動力去做好這件事。
但 Karpathy 提到的還有一個微妙而根本的原因:這個領域幾乎完全由文本組成(對 LLMs 很有利!),而且我們已經有明確的標準化工具,這些工具本質上就是文本編輯器(IDE),幾乎所有的工作都是自包含的。幾乎沒有其他領域能像這樣為 AI 代理提供如此豐富的土壤。
這部分解釋了為什麼 AI 代理在其他領域的擴散會花更長的時間,但同樣也為任何從事知識工作代理的人提供了機會。我們正進入一個新的知識工作者軟體時代,這些軟體允許以直觀而強大的方式與代理互動。
一些現有的公司將自然地有機會建立這些解決方案,但許多領域將會有機會,因為有些公司不會足夠快地行動。同樣,還會有許多類別沒有自然的現有公司,因為這是第一次將軟體應用於市場。
那些能夠將這些解決方案推向市場的公司,特別是進入需要變更管理和流程再造的企業,將是贏家。
102.1K
這其實是 @karpathy 根據可能發生的情況,特別是在企業環境中,所提出的極具務實性和現實性的觀點。
我們的 AI 模型能力正在迅速提升,但這些能力在現實工作流程中的擴散將需要時間,並且需要大量的整合、變更管理以及必須構建的新解決方案。
“基本上,我的 AI 時間表相對於你在你附近的 SF AI 派對或你的推特時間線上所看到的,悲觀了 5-10 倍,但相對於不斷上升的 AI 否認者和懷疑者的潮流,仍然相當樂觀。表面上的衝突並不存在:在我看來,我們同時 1) 在最近幾年中看到 LLMs 取得了巨大的進展,而 2) 仍然有很多工作需要完成(基礎工作、整合工作、與物理世界的傳感器和執行器、社會工作、安全和保安工作(越獄、毒化等))以及在我們擁有一個你會更願意雇用而不是人類來做任意工作的實體之前,還需要進行研究。我認為總體而言,10 年應該是一個非常看漲的 AGI 時間表,這只是與當前的炒作形成對比,才讓人感覺不是那樣。”

Andrej Karpathy10月19日 04:23
上週能夠參加Dwarkesh的節目我很高興,我覺得問題和對話都非常好。
我剛剛也重看了一遍這集播客。首先,是的,我知道,我很抱歉我說話太快了 :)。這對我來說是一種損失,因為有時我的說話思路超過了我的思考思路,所以我認為我因為這個原因搞砸了一些解釋,有時我也很緊張,擔心我會偏離主題或深入到一些相對無關的事情。無論如何,幾個筆記/指點:
AGI時間表。關於AGI時間表的評論似乎是早期反應中最受關注的部分。這個「代理的十年」是對之前推文的引用。基本上,我的AI時間表比你在你附近的SF AI派對或推特時間線上看到的要悲觀5-10倍,但對於一波波的AI否認者和懷疑者來說,仍然相當樂觀。表面上的矛盾並不存在:在我看來,我們同時1) 在最近幾年看到LLM的巨大進展,而2) 仍然有很多工作要做(基礎工作、整合工作、將傳感器和執行器連接到物理世界的工作、社會工作、安全和保安工作(越獄、毒化等)),還有研究需要完成,才能擁有一個你會希望雇用的實體,來替代世界上某個隨機工作的人。我認為總體來說,10年應該是AGI非常樂觀的時間表,這只是與當前的炒作形成對比,才讓人感覺不是這樣。
動物與鬼魂。關於Sutton播客的早期寫作。我懷疑是否有一個簡單的算法可以讓它在世界上自由學習一切。如果有人建立了這樣的東西,我會錯誤,這將是AI領域最令人難以置信的突破。在我看來,動物根本不是這個的例子——它們是由進化預先包裝了大量智慧,並且它們的學習總體上是相當有限的(例如:出生時的斑馬)。戴上我們的工程帽,我們不會重新做進化。但通過LLM,我們偶然發現了一種「預包裝」大量智慧的方法,這不是通過進化,而是通過預測互聯網上的下一個標記。這種方法導致了智能領域中不同類型的實體。與動物不同,更像是鬼魂或靈魂。但我們可以(也應該)隨著時間的推移使它們更像動物,在某些方面,這就是許多前沿工作的目的。
關於RL。我已經批評過RL幾次,例如。首先,你是在「通過吸管吸取監督」,所以我認為信號/每次運算的效果非常差。RL也非常嘈雜,因為一個完成可能有很多錯誤可能會被鼓勵(如果你恰好碰到正確的答案),相反,可能會有出色的見解標記被抑制(如果你恰好後來搞砸了)。過程監督和LLM評判也有問題。我認為我們會看到替代的學習範式。我對「代理互動」持樂觀態度,但對「強化學習」持悲觀態度。我最近看到一些論文出現,根據我所說的「系統提示學習」,我認為這些論文是在正確的方向上,但我認為在arxiv上的想法與在LLM前沿實驗室的實際大規模實施之間仍然存在差距。我總體上對這一剩餘工作的進展感到相當樂觀,例如,我甚至會說ChatGPT的記憶等是新學習範式的原始部署示例。
認知核心。我之前關於「認知核心」的帖子:,這個想法是剝離LLM,使它們更難記憶,或主動剝除它們的記憶,以使它們在概括方面更好。否則它們會過於依賴它們所記憶的東西。人類不能這麼容易地記憶,這現在看起來更像是一種特徵,而不是一個缺陷。也許無法記憶是一種正則化。此外,我之前的帖子提到模型大小的趨勢是「向後的」,以及為什麼「模型必須先變大才能變小」
時光旅行到Yann LeCun 1989。這是我在播客中描述得非常匆忙/糟糕的帖子:。基本上——如果擁有33年的算法進步的知識,你能多大程度上改善Yann LeCun的結果?每個算法、數據和計算對結果的限制有多大?那裡的案例研究。
nanochat。我對ChatGPT訓練/推理管道的端到端實現(基本要素)
關於LLM代理。對於這個行業的批評更多的是在於超越了目前能力的工具。我生活在我所認為的中間世界,我想與LLM合作,而我們的優缺點是匹配的。這個行業生活在一個未來,完全自主的實體並行合作編寫所有代碼,而人類則變得無用。例如,我不想要一個代理,去20分鐘後回來帶著1000行代碼。我當然不覺得自己準備好監督10個這樣的團隊。我希望能夠分成我能夠記住的部分,讓LLM解釋它正在編寫的代碼。我希望它能向我證明它所做的事情是正確的,我希望它能提取API文檔並向我展示它正確使用了東西。我希望它能做出更少的假設,並在不確定的時候詢問/與我合作。我希望在這個過程中學習,並成為更好的程序員,而不僅僅是被提供大量我被告知有效的代碼。我只是認為這些工具應該更現實地反映它們的能力以及它們如何適應當前的行業,我擔心如果這樣做不好,我們可能會在軟件中積累大量的垃圾,並增加漏洞、安全漏洞等。
工作自動化。放射科醫生做得很好,哪些工作更容易受到自動化的影響以及原因。
物理學。孩子們應該在早期教育中學習物理,不是因為他們將來會從事物理,而是因為這是最能啟動大腦的學科。物理學家是智力的胚胎幹細胞。我有一篇長的帖子已經在我的草稿中寫了一年多,希望能儘快完成。
再次感謝Dwarkesh邀請我!
160.47K
熱門
排行
收藏