一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Jeffrey Emanuel

DeepSeek 剛剛發布了一篇相當震驚的新論文。他們在這裡真的埋藏了重點，僅僅稱之為 DeepSeek OCR。雖然這是一個非常強大的 OCR 模型，但它的目的和他們的方法的含義遠超過你對「又一個 OCR 模型」的期望。傳統上，視覺 LLM 令牌幾乎看起來像是 LLM 範式的附加部分或「附加功能」。而 10,000 個英文字在以可理解的像素表達時，會佔用比以令牌表達時更多的空間。因此，那 10,000 個單詞可能變成了 15,000 個令牌，或者 30,000 到 60,000 個「視覺令牌」。所以視覺令牌的效率要低得多，實際上只有在無法用文字有效傳達的數據上使用才有意義。但根據這篇論文中的想法，這一點現在被顛倒了。DeepSeek 找到了使用視覺令牌比使用文本令牌更好地壓縮 10 倍的方法！因此，理論上你可以將那 10,000 個單詞僅存儲在 1,500 個他們特殊的壓縮視覺令牌中。如果你考慮到自己思維的運作方式，這可能並不像聽起來那麼意外。畢竟，我知道當我在尋找一本我已經讀過的書中的某個部分時，我會在腦海中想像它的視覺形象，並且總是記得它在書的哪一側以及大約在頁面的哪個位置，這表明某種視覺記憶表徵在起作用。現在，尚不清楚這如何與 LLM 的其他下游認知功能互動；模型能否像使用常規文本令牌那樣智能地推理這些壓縮的視覺令牌？這是否會使模型變得不那麼清晰，因為它被迫進入一種更以視覺為導向的模式？但你可以想像，根據具體的權衡，這可能是一個非常令人興奮的新軸心，可以大大擴展有效的上下文大小。特別是當與 DeepSeek 幾週前關於稀疏注意力的另一篇論文結合時。據我們所知，谷歌可能已經找到了類似的東西，這可能解釋了為什麼 Gemini 擁有如此巨大的上下文大小，並且在 OCR 任務中如此出色和快速。如果他們真的這樣做了，他們可能不會說，因為這會被視為一個重要的商業機密。但 DeepSeek 的好處在於，他們將整個東西開源並公開權重，並解釋了他們是如何做到的，因此現在每個人都可以嘗試並探索。即使這些技巧使注意力變得更具損失性，獲得一個擁有 1,000 萬或 2,000 萬令牌上下文窗口的前沿 LLM 的潛力仍然相當令人興奮。你基本上可以將公司的所有關鍵內部文件塞進提示前言中，並將其緩存到 OpenAI，然後只需在此基礎上添加你的具體查詢或提示，而不必處理搜索工具，仍然能保持快速和具成本效益。或者將整個代碼庫放入上下文並緩存，然後在你對代碼進行更改時不斷附加相當於 git 差異的內容。如果你曾經讀過關於偉大物理學家漢斯·貝特的故事，他以記住大量隨機物理事實而聞名（例如整個元素周期表；各種物質的沸點等），以便他能夠無縫地思考和計算，而不必打斷他的思路去查找參考表中的內容。擁有大量特定任務的知識在你的工作記憶中是非常有用的。這似乎是一種非常聰明且附加的方法，可能將該記憶庫擴展 10 倍或更多。