Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco eng+gtm, Investir dans Tower Research Ventures | partager mes curiosités et comment appliquer l’IA de manière réfléchie | @stanfordhai @bloombergbeta @launchdarkly
Résultats de DeepSeek-OCR sur l'écriture manuscrite des médecins...
De la lisibilité universitaire au chaos des médecins praticiens.
Si nous nous dirigeons vers des fenêtres de contexte infinies + une intelligence en temps réel, nous pourrions avoir besoin de modèles plus petits, plus rapides et multimodaux avec une compression efficace, et non d'LLMs à grande échelle.
Parce que peut-être que la compression n'est que de l'intelligence.
Prédiction : DeepSeekV4 sera un VLM. Cet article sur l'OCR est l'accroche.

5,4K
Un pixel vaut-il mille mots ?
DeepSeek-OCR dit que oui.
Je l'ai testé sur l'écriture manuscrite des médecins, de la lisibilité à l'université au chaos des médecins praticiens.
Si nous nous dirigeons vers des fenêtres de contexte infinies + une intelligence en temps réel, nous pourrions avoir besoin de modèles multimodaux plus petits avec une compression efficace, et pas simplement d'augmenter la taille des LLM. Parce que peut-être que la compression n'est que de l'intelligence...
Prédiction : DeepSeekV4 sera un VLM. Cet article sur l'OCR est l'accroche.


Andrej Karpathy21 oct., 06:13
J'aime beaucoup le nouveau papier DeepSeek-OCR. C'est un bon modèle OCR (peut-être un peu moins bon que dots), et oui, la collecte de données, etc., mais de toute façon, cela n'a pas d'importance.
La partie qui m'intéresse le plus (surtout en tant que passionné de vision par ordinateur qui se fait temporairement passer pour une personne de traitement du langage naturel) est de savoir si les pixels sont de meilleurs inputs pour les LLM que le texte. Si les tokens de texte sont gaspillés et juste terribles, à l'entrée.
Peut-être qu'il est plus logique que tous les inputs aux LLM ne devraient être que des images. Même si vous avez un input de texte pur, peut-être que vous préféreriez le rendre et ensuite l'alimenter :
- compression d'information plus importante (voir le papier) => fenêtres de contexte plus courtes, plus d'efficacité
- flux d'information général significativement plus important => pas seulement du texte, mais par exemple du texte en gras, du texte coloré, des images arbitraires.
- l'input peut maintenant être traité avec une attention bidirectionnelle facilement et par défaut, pas d'attention autoregressive - beaucoup plus puissant.
- supprimer le tokenizer (à l'entrée) !! J'ai déjà râlé sur combien je n'aime pas le tokenizer. Les tokenizers sont laids, séparés, pas une étape de bout en bout. Il "importe" toute la laideur de l'Unicode, des encodages de bytes, il hérite d'un lourd bagage historique, risque de sécurité/jailbreak (par exemple, les bytes de continuation). Il fait en sorte que deux caractères qui semblent identiques à l'œil apparaissent comme deux tokens complètement différents en interne dans le réseau. Un emoji souriant ressemble à un token étrange, pas à un... véritable visage souriant, pixels et tout, et tout l'apprentissage par transfert que cela implique. Le tokenizer doit disparaître.
L'OCR n'est qu'une des nombreuses tâches utiles de vision -> texte. Et les tâches texte -> texte peuvent être transformées en tâches vision -> texte. Pas l'inverse.
Donc, beaucoup de messages utilisateurs sont des images, mais le décodeur (la réponse de l'Assistant) reste du texte. C'est beaucoup moins évident comment sortir des pixels de manière réaliste... ou si vous le voudriez.
Maintenant, je dois aussi lutter contre l'envie de faire un version de nanochat uniquement avec input d'image...
79
La dégradation cognitive des LLMs.
Des chercheurs montrent que les données web de mauvaise qualité causent un déclin cognitif permanent chez les LLMs. Exactement comme les humains qui scrollent sans fin.
>Déclin du raisonnement (ARC) 74.9->57.2, mémoire à long terme (RULER) 84.4->52.3. Les LLMs passent essentiellement de la chaîne de pensée directement aux hallucinations.
>Lorsqu'ils sont évalués sur des traits de personnalité, les modèles montrent des marqueurs accrus de narcissisme et de psychopathie.
Alors que la mauvaise qualité alimente la prochaine génération de modèles d'IA et que les algorithmes les propulsent au sommet, la qualité des données se dégrade encore plus—créant une boucle sans fin.
Comme l'a dit @ilyasut, la fin du pré-entraînement est là.

156
Meilleurs
Classement
Favoris

