Чи вартий піксель тисячі слів? DeepSeek-OCR каже, що так. Я перевірив його на почерку лікаря, від розбірливості в коледжі до хаосу практикуючого лікаря. Якщо ми масштабуємося до нескінченних контекстних вікон + інтелекту в реальному часі, нам можуть знадобитися менші мультимодальні моделі з ефективним стисненням, а не просто масштабуванням LLM. Тому що, можливо, стиснення – це просто інтелект... Прогноз: DeepSeekV4 буде VLM. Цей документ OCR є тизером.