Czy piksel jest wart tysiąca słów? DeepSeek-OCR mówi tak. Testowałem to na ręcznym piśmie lekarzy, od czytelności w college'u po chaos praktykującego lekarza. Jeśli zmierzamy w kierunku nieskończonych okien kontekstowych + inteligencji w czasie rzeczywistym, możemy potrzebować mniejszych modeli multimodalnych z efektywną kompresją, a nie tylko skalowania LLM. Bo może kompresja to po prostu inteligencja... Prognoza: DeepSeekV4 będzie VLM. Ten artykuł o OCR to zapowiedź.