Apakah piksel bernilai seribu kata? DeepSeek-OCR mengatakan ya. Saya mengujinya pada tulisan tangan dokter, dari keterbacaan perguruan tinggi hingga kekacauan dokter yang berpraktik. Jika kita menskalakan ke jendela konteks tak terbatas + kecerdasan real-time, kita mungkin memerlukan model multimoda yang lebih kecil dengan kompresi yang efisien, bukan hanya menskalakan LLM. Karena mungkin kompresi hanyalah kecerdasan... Prediksi: DeepSeekV4 akan menjadi VLM. Makalah OCR ini adalah teasernya.