Un pixel vale mille parole? DeepSeek-OCR dice di sì. L'ho testato sulla scrittura a mano dei medici, dalla leggibilità del college al caos dei medici praticanti. Se stiamo scalando verso finestre di contesto infinite + intelligenza in tempo reale, potremmo aver bisogno di modelli multimodali più piccoli con compressione efficiente, non semplicemente di scalare i LLM. Perché forse la compressione è solo intelligenza... Previsione: DeepSeekV4 sarà un VLM. Questo documento OCR è il teaser.