熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Ramez Naam
氣候和清潔能源投資者。著有 5 本書。能源與環境聯合主席 @SingularityU.努力建設一個更美好的世界。
鈦是核能的解藥。

Nick Touran10 小時前
鈦是優秀的核燃料,但它並沒有什麼神奇之處。網上的人幾乎總是錯誤地將非繁殖型鈾與繁殖型鈦進行比較,並得出鈦勝出的結論,卻忘了提到鈾也可以繁殖。以下是臭名昭著的鈦神話... 🧵
1.13K
這確實是我最擔心的AI用途之一。社交媒體已經破壞了美國政治。AI可能會進一步破壞它。

David22 小時前
老實說,我對即將到來的2028年總統選舉中將使用的人工智慧技術的力量和規模感到害怕。這可能是一個文明的轉折點。我們還沒有準備好。我們可能應該開始準備,或者至少討論一下我們該如何準備。
1.77K
Ramez Naam 已轉發
我喜歡施耐德電氣(數據中心建設的關鍵參與者)一位高管的這些見解。
"
AI 硬體正在重寫數據中心的能源方程式。NVIDIA 的 Blackwell 2 現在每個機架大約消耗 180-200 kW,將整個站點的需求從約 300 MW 提升到 1.2-1.5 GW——在單一架構周期內增長了 4 到 5 倍。
電力尖峰(“300 MW → 1.5 GW → 500 MW”)對 30 到 50 年的變壓器和配電資產造成壓力,這些設備從未設計用於如此波動,迫使公用事業和運營商重新思考電網增強和現場發電策略。
延遲,而不是土地,決定地理位置——因此出現了“城市微型數據中心”。超大規模雲計算公司仍然偏好沙漠中的“超級”站點,但實時工作負載(交易、高速製造質量控制、機器人組裝)無法忍受往返於遠程超級集群的延遲。
結果:數據中心的足跡正在向密集地區(例如,賓夕法尼亞 AI 樞紐)推進,甚至進入工廠車間,邊緣或“微雲”房間內擺放著混合的舊式 PLC、Xeon/EPYC CPU 和頂級 GPU,以保持推理在 20-50 毫秒的範圍內。
雲端巨頭正在資助一場核能的“迷你文藝復興”。微軟已經簽署了一份 20 年的購電協議,以重啟三哩島 1 號單元;小型模塊化反應堆供應商(GE、韋斯汀豪斯、羅爾斯·羅伊斯)正在將小型反應堆定位為超大規模校園的基載電源。
運營商承認工程和監管路徑是新穎且資本密集的,但認為核能是唯一能夠隨著 AI 需求擴展的碳中和、24 小時×7 天的供應。
冷卻和現場輔助設施是下一個投資熱點。傳統的單相冷卻已經不夠用;多相液體系統對於 Blackwell 級的熱負載變得必不可少。
運營商正在評估專用的柴油或天然氣發電機組——最終是小型模塊化反應堆——以在本地運行“公用事業負載”(冷卻、通風、安全),將電網需求減少約 40%,並緩解互連瓶頸。這些利基市場為熱管理 OEM 和分佈式發電提供商創造了一個新的資本支出周期。
沒有停頓的跡象——晶片路線圖和軟體波動使資本支出保持在加速狀態。
隨著每一代 GPU 提供更高的密度,數據中心需要持續的電氣和機械改造;超大規模雲計算公司將持續負載的自有站點與來自 Tier-1 數據中心(Equinix、NTT、Compass 等)的突發容量相結合。
軟體需求甚至更難以預測:新興的中國 LLM(DeepSeek、阿里巴巴、騰訊)和仍然未知的學術突破可能進一步激增計算強度,使任何兩到五年的預測高度不確定。投資者應同時跟踪四個視角——學術、初創企業、超大規模雲計算公司和資本配置趨勢——以避免盲點。
"
59.77K
很高興看到。@tylerhnorris 的工作顯示,如果 AI 數據中心在其電力需求上能稍微靈活一些,我們可以在不需要新一代的情況下增加數十吉瓦的計算能力。很棒的是,谷歌在實施這一點上走在了前面。

Shanu Mathew8月4日 22:24
我告訴過你們,這只是時間問題。在其他條件相同的情況下,當然不靈活是沒有意義的。但如果這成為解決時間與電力瓶頸的關鍵,科技巨頭們會想出創意來。
谷歌:"快進到今天,我們已經開發出新的能力來轉移計算任務,尤其是機器學習工作負載,以幫助滿足世界日益增長的能源需求,同時最小化增加新發電能力所需的時間和成本。"
cc: @tylerhnorris (感謝提供資訊) @ramez @azeem @JesseJenkins @JessePeltan

10.77K
Ramez Naam 已轉發
最近,論文《層次推理模型》引起了廣泛關注,在Twitter上收集了數萬個讚,這在研究論文中相當不尋常。
該論文聲稱在ARC-AGI-1上以一個小型模型(2700萬參數)從零開始訓練,準確率為40.3%——如果這是真的,將代表一個重大的推理突破。
我剛剛深入研究了這篇論文和代碼庫……
這是一篇好文章,詳細而易於理解。我認為所提出的想法相當有趣,架構也可能具有價值。
這個概念讓我想起了我在2016-2018年"深度學習架構研究的黃金時代"遇到的許多不同想法。這類研究已經不再流行一段時間,因此看到對替代架構的重新興趣是件好事。
然而,實驗設置似乎存在嚴重缺陷,這意味著我們目前沒有來自ARC-AGI的實證信號,無法確定該架構是否真的有幫助。
根據我對數據準備代碼的理解,ARC-AGI-1實驗正在進行以下操作:
1. 在876,404個任務上進行訓練,這些任務是960個原始任務的增強生成變體:
... 400來自ARC-AGI-1/train
... 400來自ARC-AGI-1/eval
... 160來自ConceptARC
2. 在400個任務(ARC-AGI-1/eval)上進行測試,通過將每個任務增強為約1000個變體(實際上,由於增強過程的特殊性,總共只有368,151個),為每個變體生成預測,並通過多數投票將預測減少到N=2。
簡而言之:他們在測試數據上進行訓練。
你可能會問,等等,那麼準確率為什麼是40%,而不是100%?模型是否嚴重欠擬合?
這是因為訓練數據和測試數據代表的是相同原始任務的*不同變體*。數據增強是獨立應用於訓練數據中的評估任務和測試數據中的評估任務。
因此,這個實驗大致上是在測量模型如何成功地對相同任務的程序生成變體進行泛化(即模型是否能學會逆轉一組固定的靜態網格變換)。
所以——不要太興奮。但我確實認為這類架構研究是有價值的(當伴隨著適當的實證驗證信號時),而HRM的想法非常有趣。
此外,為了澄清,我不認為作者有意誤導或隱藏實驗問題——他們可能沒有意識到他們的訓練設置實際上意味著什麼。
19.59K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可