一张图片值千言万语吗? DeepSeek-OCR 说是的。 我在医生的手写字上进行了测试,从大学的可读性到执业医生的混乱。 如果我们正在朝着无限上下文窗口 + 实时智能的方向发展,我们可能需要更小的多模态模型和高效的压缩,而不仅仅是扩展 LLM。因为也许压缩就是智能…… 预测:DeepSeekV4 将是一个 VLM。这篇 OCR 论文是预告。