熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Andrej Karpathy
建築@EurekaLabsAI。曾任 AI 總監 @ 特斯拉,創始團隊 @ OpenAI,CS231n/PhD @ 史丹佛大學。我喜歡訓練大型深層神經網路。
上週能夠參加Dwarkesh的節目我很高興,我覺得問題和對話都非常好。
我剛剛也重看了一遍這集播客。首先,是的,我知道,我很抱歉我說話太快了 :)。這對我來說是一種損失,因為有時我的說話思路超過了我的思考思路,所以我認為我因為這個原因搞砸了一些解釋,有時我也很緊張,擔心我會偏離主題或深入到一些相對無關的事情。無論如何,幾個筆記/指點:
AGI時間表。關於AGI時間表的評論似乎是早期反應中最受關注的部分。這個「代理的十年」是對之前推文的引用。基本上,我的AI時間表比你在你附近的SF AI派對或推特時間線上看到的要悲觀5-10倍,但對於一波波的AI否認者和懷疑者來說,仍然相當樂觀。表面上的矛盾並不存在:在我看來,我們同時1) 在最近幾年看到LLM的巨大進展,而2) 仍然有很多工作要做(基礎工作、整合工作、將傳感器和執行器連接到物理世界的工作、社會工作、安全和保安工作(越獄、毒化等)),還有研究需要完成,才能擁有一個你會希望雇用的實體,來替代世界上某個隨機工作的人。我認為總體來說,10年應該是AGI非常樂觀的時間表,這只是與當前的炒作形成對比,才讓人感覺不是這樣。
動物與鬼魂。關於Sutton播客的早期寫作。我懷疑是否有一個簡單的算法可以讓它在世界上自由學習一切。如果有人建立了這樣的東西,我會錯誤,這將是AI領域最令人難以置信的突破。在我看來,動物根本不是這個的例子——它們是由進化預先包裝了大量智慧,並且它們的學習總體上是相當有限的(例如:出生時的斑馬)。戴上我們的工程帽,我們不會重新做進化。但通過LLM,我們偶然發現了一種「預包裝」大量智慧的方法,這不是通過進化,而是通過預測互聯網上的下一個標記。這種方法導致了智能領域中不同類型的實體。與動物不同,更像是鬼魂或靈魂。但我們可以(也應該)隨著時間的推移使它們更像動物,在某些方面,這就是許多前沿工作的目的。
關於RL。我已經批評過RL幾次,例如。首先,你是在「通過吸管吸取監督」,所以我認為信號/每次運算的效果非常差。RL也非常嘈雜,因為一個完成可能有很多錯誤可能會被鼓勵(如果你恰好碰到正確的答案),相反,可能會有出色的見解標記被抑制(如果你恰好後來搞砸了)。過程監督和LLM評判也有問題。我認為我們會看到替代的學習範式。我對「代理互動」持樂觀態度,但對「強化學習」持悲觀態度。我最近看到一些論文出現,根據我所說的「系統提示學習」,我認為這些論文是在正確的方向上,但我認為在arxiv上的想法與在LLM前沿實驗室的實際大規模實施之間仍然存在差距。我總體上對這一剩餘工作的進展感到相當樂觀,例如,我甚至會說ChatGPT的記憶等是新學習範式的原始部署示例。
認知核心。我之前關於「認知核心」的帖子:,這個想法是剝離LLM,使它們更難記憶,或主動剝除它們的記憶,以使它們在概括方面更好。否則它們會過於依賴它們所記憶的東西。人類不能這麼容易地記憶,這現在看起來更像是一種特徵,而不是一個缺陷。也許無法記憶是一種正則化。此外,我之前的帖子提到模型大小的趨勢是「向後的」,以及為什麼「模型必須先變大才能變小」
時光旅行到Yann LeCun 1989。這是我在播客中描述得非常匆忙/糟糕的帖子:。基本上——如果擁有33年的算法進步的知識,你能多大程度上改善Yann LeCun的結果?每個算法、數據和計算對結果的限制有多大?那裡的案例研究。
nanochat。我對ChatGPT訓練/推理管道的端到端實現(基本要素)
關於LLM代理。對於這個行業的批評更多的是在於超越了目前能力的工具。我生活在我所認為的中間世界,我想與LLM合作,而我們的優缺點是匹配的。這個行業生活在一個未來,完全自主的實體並行合作編寫所有代碼,而人類則變得無用。例如,我不想要一個代理,去20分鐘後回來帶著1000行代碼。我當然不覺得自己準備好監督10個這樣的團隊。我希望能夠分成我能夠記住的部分,讓LLM解釋它正在編寫的代碼。我希望它能向我證明它所做的事情是正確的,我希望它能提取API文檔並向我展示它正確使用了東西。我希望它能做出更少的假設,並在不確定的時候詢問/與我合作。我希望在這個過程中學習,並成為更好的程序員,而不僅僅是被提供大量我被告知有效的代碼。我只是認為這些工具應該更現實地反映它們的能力以及它們如何適應當前的行業,我擔心如果這樣做不好,我們可能會在軟件中積累大量的垃圾,並增加漏洞、安全漏洞等。
工作自動化。放射科醫生做得很好,哪些工作更容易受到自動化的影響以及原因。
物理學。孩子們應該在早期教育中學習物理,不是因為他們將來會從事物理,而是因為這是最能啟動大腦的學科。物理學家是智力的胚胎幹細胞。我有一篇長的帖子已經在我的草稿中寫了一年多,希望能儘快完成。
再次感謝Dwarkesh邀請我!

Dwarkesh Patel10月18日 01:16
@karpathy 的訪談
0:00:00 – AGI 還需要十年
0:30:33 – LLM 認知缺陷
0:40:53 – RL 很糟糕
0:50:26 – 人類是如何學習的?
1:07:13 – AGI 將融入 2% 的 GDP 增長
1:18:24 – ASI
1:33:38 – 智力與文化的演變
1:43:43 - 為什麼自駕車花了這麼長時間
1:57:08 - 教育的未來
在 YouTube、Apple Podcasts、Spotify 等平台上查找 Dwarkesh Podcast,享受吧!
2.26M
很高興推出新的代碼庫:nanochat!
(這是我寫過的最瘋狂的之一)。
與我之前的類似代碼庫nanoGPT僅涵蓋預訓練不同,nanochat是一個從零開始的簡單ChatGPT克隆的全棧訓練/推理管道,代碼庫依賴最小。你啟動一個雲GPU盒子,運行一個腳本,最少4小時後,你就可以在類似ChatGPT的網頁UI中與自己的LLM對話。
它大約有8000行我認為相當乾淨的代碼來:
- 使用新的Rust實現訓練分詞器
- 在FineWeb上預訓練一個Transformer LLM,評估多個指標的CORE分數
- 在SmolTalk的用戶-助手對話中進行中期訓練,進行多選題,工具使用。
- SFT,評估聊天模型在世界知識多選題(ARC-E/C,MMLU)、數學(GSM8K)、代碼(HumanEval)上的表現
- 可選地在GSM8K上對模型進行RL,使用"GRPO"
- 在引擎中高效推理模型,使用KV緩存,簡單的預填充/解碼,工具使用(輕量級沙箱中的Python解釋器),通過CLI或類似ChatGPT的WebUI與其對話。
- 撰寫一份單一的Markdown報告卡,總結並遊戲化整個過程。
即使成本低至約100美元(約4小時在8XH100節點上),你也可以訓練一個小型的ChatGPT克隆,能夠進行對話,並且可以寫故事/詩,回答簡單問題。約12小時超過GPT-2的CORE指標。當你進一步擴展到約1000美元(約41.6小時的訓練)時,它迅速變得更加連貫,能夠解決簡單的數學/代碼問題並參加多選測試。例如,一個深度30的模型訓練24小時(這大約等於GPT-3 Small 125M的FLOPs和GPT-3的1/1000)在MMLU上達到40分,在ARC-Easy上達到70分,在GSM8K上達到20分,等等。
我的目標是將完整的"強基線"堆棧整合成一個連貫、簡約、可讀、可駭客、最大限度可分叉的代碼庫。nanochat將是LLM101n的壓軸項目(該項目仍在開發中)。我認為它也有潛力發展成為一個研究工具或基準,類似於之前的nanoGPT。它絕不是完成的、調整過的或優化的(實際上我認為可能還有很多低垂的果實),但我認為它已經達到了一個整體框架足夠好的地方,可以上傳到GitHub,讓所有部分都可以改進。
代碼庫的鏈接和nanochat快速運行的詳細步驟在回覆中。

4.62M
熱門
排行
收藏