Säger en pixel mer än tusen ord? DeepSeek-OCR säger ja. Jag testade det på läkares handstil, från läsbarhet på universitetet till att praktisera läkarkaos. Om vi skalar mot oändliga kontextfönster + realtidsintelligens kan vi behöva mindre multimodala modeller med effektiv komprimering, inte bara skalning av LLM:er. För kanske är komprimering bara intelligens... Förutsägelse: DeepSeekV4 kommer att vara en VLM. Det här OCR-pappret är teasern.