ピクセルは千の言葉に値しますか? DeepSeek-OCRは「はい」と答えています。 大学時代の読みやすさから実践中の医師の混乱まで、医師の手書きでテストしました。 無限のコンテキストウィンドウ+リアルタイムインテリジェンスに向けてスケーリングする場合、単にLLMをスケーリングするのではなく、効率的な圧縮を備えたより小さなマルチモーダルモデルが必要になるかもしれません。 圧縮はただの知性かもしれないから... 予測: DeepSeekV4 は VLM になります。このOCRペーパーがティーザーです。