Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Alex Ker 🔭
@basetenco ENG+GTM, invirtiendo en Tower Research Ventures | compartiendo mis curiosidades y cómo aplicar la IA de manera reflexiva | @stanfordhai @bloombergbeta @launchdarkly
Resultados de DeepSeek-OCR sobre la escritura de médicos...
Desde la legibilidad en la universidad hasta el caos de los médicos en ejercicio.
Si estamos escalando hacia ventanas de contexto infinitas + inteligencia en tiempo real, podríamos necesitar modelos más pequeños, rápidos y multimodales con compresión eficiente, no LLMs en escalado.
Porque tal vez la compresión sea solo inteligencia.
Predicción: DeepSeekV4 será un VLM. Este artículo de OCR es el adelanto.

5,94K
¿Vale un píxel mil palabras?
DeepSeek-OCR dice que sí.
Lo probé con la escritura de médicos, desde la legibilidad en la universidad hasta el caos de los médicos en práctica.
Si estamos escalando hacia ventanas de contexto infinitas + inteligencia en tiempo real, podríamos necesitar modelos multimodales más pequeños con compresión eficiente, no simplemente escalar LLMs. Porque tal vez la compresión sea solo inteligencia...
Predicción: DeepSeekV4 será un VLM. Este artículo de OCR es el adelanto.


Andrej Karpathy21 oct 2025
Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (quizás un poco peor que dots), y sí, la recolección de datos, etc., pero de todos modos no importa.
La parte más interesante para mí (especialmente como alguien que es un apasionado de la visión por computadora y que temporalmente se disfraza de persona de lenguaje natural) es si los píxeles son mejores entradas para los LLMs que el texto. Si los tokens de texto son derrochadores y simplemente terribles, en la entrada.
Quizás tenga más sentido que todas las entradas a los LLMs deberían ser solo imágenes. Incluso si tienes una entrada de texto puro, tal vez preferirías renderizarla y luego alimentarla:
- más compresión de información (ver artículo) => ventanas de contexto más cortas, más eficiencia
- flujo de información general significativamente mayor => no solo texto, sino por ejemplo texto en negrita, texto de color, imágenes arbitrarias.
- la entrada ahora puede ser procesada con atención bidireccional fácilmente y como predeterminado, no atención autorregresiva - mucho más poderosa.
- ¡eliminar el tokenizador (en la entrada)!! Ya he expresado cuánto desagrado tengo por el tokenizador. Los tokenizadores son feos, separados, no son una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda mucho equipaje histórico, riesgo de seguridad/escape (por ejemplo, bytes de continuación). Hace que dos caracteres que parecen idénticos a la vista se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente se ve como un token extraño, no como una... cara sonriente real, píxeles y todo, y todo el aprendizaje por transferencia que conlleva. El tokenizador debe irse.
El OCR es solo una de muchas tareas útiles de visión -> texto. Y las tareas de texto -> texto pueden hacerse para ser tareas de visión -> texto. No al revés.
Así que muchos mensajes de usuario son imágenes, pero el decodificador (la respuesta del asistente) sigue siendo texto. Es mucho menos obvio cómo outputear píxeles de manera realista... o si querrías hacerlo.
Ahora también tengo que luchar contra la urgencia de desviar a una versión de nanochat solo de entrada de imagen...
632
La degradación cognitiva arruina la inteligencia de los LLM.
Los investigadores muestran que los datos web basura causan un deterioro cognitivo permanente en los LLM, exactamente como los humanos que se sumergen en el doomscrolling.
> Decaimiento en el razonamiento (ARC) 74.9->57.2, memoria de largo plazo (RULER) 84.4->52.3. Los LLM esencialmente saltan de la cadena de pensamiento directamente a las alucinaciones.
> Al ser evaluados en rasgos de personalidad, los modelos muestran un aumento en los marcadores de narcisismo y psicopatía.
A medida que la basura alimenta a la próxima generación de modelos de IA y los algoritmos los empujan a la cima, la calidad de los datos se degrada aún más, creando un bucle interminable.
Como dijo @ilyasut, el fin del preentrenamiento ha llegado.

698
Parte superior
Clasificación
Favoritos

