一個像素值千言萬語嗎? DeepSeek-OCR 說是的。 我在醫生的手寫字上測試了它,從大學的可讀性到執業醫生的混亂。 如果我們正在朝著無限上下文窗口 + 實時智能的方向發展,我們可能需要更小的多模態模型,並具有效率的壓縮,而不僅僅是擴展 LLM。因為也許壓縮就是智能…… 預測:DeepSeekV4 將是一個 VLM。這篇 OCR 論文是預告。