熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Tim Dettmers
Tim Dettmers 已轉發
介紹 DeepConf:自信地深思
🚀 首個使用開源模型在 AIME 2025 上實現 99.9% 的方法!即使沒有工具,使用 GPT-OSS-120B,我們也達到了幾乎完美的準確率,同時節省了多達 85% 的生成令牌。
它還為並行思維提供了許多強大的優勢:
🔥 性能提升:模型和數據集的準確率提高約 10%
⚡ 超高效:生成的令牌減少多達 85%
🔧 即插即用:與任何現有模型兼容 - 無需訓練(也無需超參數調整!)
⭐ 易於部署:在 vLLM 中只需 ~50 行代碼(見下面的 PR)
📚 論文:
🌐 項目:
與以下人員共同合作:@FuYichao123 , xuewei_wang, @tydsh
(請查看下面的評論中的詳細信息)
408.65K
Tim Dettmers 已轉發
我們能否透過 KV 快取重計算來打破 LLM 推理的記憶體壁壘?
🚨 介紹 XQuant,它利用未充分利用的計算單元來消除 LLM 推理的記憶體瓶頸!
• 與 FP16 相比節省 10–12.5 倍記憶體
• 幾乎沒有準確性損失
• 超越最先進的 KV 量化🔥
關鍵見解:
1. KV 快取 = 瓶頸 → 隨著上下文長度和批量大小線性增長。
2. 計算 >> 記憶體 → GPU 提供的 FLOPs 速度比記憶體帶寬快幾個數量級。
3. 關鍵思想 → 不存儲 KV,只需重新計算它。 🧠
由於 LLM 推理通常受限於記憶體帶寬,計算單元往往處於閒置和未充分利用狀態。因此,我們可以在沒有任何開銷的情況下利用這些可用的計算資源!
GPU 硬體趨勢表明,計算能力的增長速度遠快於記憶體帶寬。因此,減少記憶體操作以換取更多計算可以幫助加速 LLM 推理。KV 快取隨著序列長度和批量大小線性增長,在 LLM 推理過程中產生大部分記憶體操作。如果我們可以透過額外的計算來避免加載和存儲 KV 快取,我們就可以加速推理!
XQuant 利用這一硬體趨勢:🧵 [1/7]
論文:
與以下人員共同合作:@coleman_hooper1 @mjlee_official 來自 @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang 來自 @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32.43K
在我看來,SWE-bench 和 T-bench 是少數幾個在我們模型進展方面有良好信號的基準。這款模型的表現與 Qwen3 Coder 相當,僅比 GPT-5 差 10%,同時它還是一款通用的 LLM,而不是專門針對代碼的。

Z.ai8月11日 11:43
呈現 GLM-4.5 技術報告!👇
這項工作展示了我們如何通過獨特的多階段訓練範式開發出在推理、編碼和代理任務方面表現出色的模型。
關鍵創新包括通過自我蒸餾進行專家模型迭代以統一能力、用於動態問題解決的混合推理模式,以及基於難度的強化學習課程。

28.61K
Tim Dettmers 已轉發
思緒的洪流:與其保留你的 Twitter/𝕏 獎金,不如將其投入你選擇的 "PayoutChallenge" - 任何你希望在世界上更多的東西!
這是我這一輪的挑戰,結合我最近的三次獎金共計 $5478.51:
人類在 AI 上升的同時,必須堅持不墮落。人類必須繼續進步,與之共同變得更好。創造一些專門設計來提升人類團隊的東西。定義故意留得有點模糊,以保持人們解釋的某種熵,但在我看來,例子包括:
- 任何有助於解釋、可視化、記憶、啟發、理解、協調等的軟體...
- 不必太高尚,例如,它可以是一篇特定的教育文章/視頻,解釋一些其他人可能受益的東西,或者你擁有獨特知識的內容。
- 解釋的提示/代理,例如,最近發布的 ChatGPT 學習模式。
- 相關的藝術作品
這個挑戰將持續兩週,直到 8 月 17 日太平洋標準時間結束。請將你的貢獻作為回覆提交。必須是為這個挑戰獨特創造的東西,否則不會存在。標準包括執行、槓桿、創新、啟發、美學、娛樂。人們可以通過點贊來為提交投票,這個 "民意選擇" 也將成為一個因素。我將在 8 月 17 日決定獲勝者並發送 $5478.51 :)
677.05K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可