Onko pikseli tuhannen sanan arvoinen? DeepSeek-OCR sanoo kyllä. Testasin sitä lääkärin käsialalla, yliopiston luettavuudesta lääkärikaaoksen harjoittamiseen. Jos skaalaamme kohti äärettömiä kontekstiikkunoita + reaaliaikaista älykkyyttä, saatamme tarvita pienempiä multimodaalisia malleja, joissa on tehokas pakkaus, ei vain skaalautuvia LLM:iä. Koska ehkä pakkaus on vain älykkyyttä... Ennuste: DeepSeekV4 on VLM. Tämä OCR-paperi on teaser.