Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Pasé 25 años en la industria de defensa (con más de 8 en uniforme, más de 2 en zonas de guerra).
No tengo amor por el PCC, pero no importa cómo vea al gobierno de China, sus empresas de investigación en IA están haciendo mucho bien y merecen algo de crédito.
A cualquiera que piense que Deepseek es algún tipo de "actor malo", recuerde que si mantuvieran estos tipos de innovaciones en secreto, es probable que se adelantarían a las empresas estadounidenses y perderíamos la carrera de la IA. Empresas como @deepseek_ai y @Alibaba_Qwen están ayudando activamente a avanzar en la IA SOTA en EE. UU. y en todo el mundo, y no piden nada a cambio.
Y lo hacen no porque haya una presión abrumadora <cough>gpt-oss<cough>, sino porque quieren compartir su investigación y modelos con personas que los ejecutan en sus datos privados, sin preocuparse de que sean recopilados por terceros, utilizados para anuncios o compartidos.
Mientras empresas como Anthropic intentan activamente presionar por más regulaciones, y OpenAI mantiene sus innovaciones, pruebas y sistemas en secreto, estos laboratorios chinos están impulsando la industria hacia adelante mientras son criticados por los medios occidentales y NIST(?).
Kudos a ustedes. Sigan así.

Andrej Karpathy21 oct, 06:13
Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (quizás un poco peor que dots), y sí, la recolección de datos, etc., pero de todos modos no importa.
La parte más interesante para mí (especialmente como alguien que es un apasionado de la visión por computadora y que temporalmente se disfraza de persona de lenguaje natural) es si los píxeles son mejores entradas para los LLMs que el texto. Si los tokens de texto son derrochadores y simplemente terribles, en la entrada.
Quizás tenga más sentido que todas las entradas a los LLMs deberían ser solo imágenes. Incluso si tienes una entrada de texto puro, tal vez preferirías renderizarla y luego alimentarla:
- más compresión de información (ver artículo) => ventanas de contexto más cortas, más eficiencia
- flujo de información general significativamente mayor => no solo texto, sino por ejemplo texto en negrita, texto de color, imágenes arbitrarias.
- la entrada ahora puede ser procesada con atención bidireccional fácilmente y como predeterminado, no atención autorregresiva - mucho más poderosa.
- ¡eliminar el tokenizador (en la entrada)!! Ya he expresado cuánto desagrado tengo por el tokenizador. Los tokenizadores son feos, separados, no son una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda mucho equipaje histórico, riesgo de seguridad/escape (por ejemplo, bytes de continuación). Hace que dos caracteres que parecen idénticos a la vista se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente se ve como un token extraño, no como una... cara sonriente real, píxeles y todo, y todo el aprendizaje por transferencia que conlleva. El tokenizador debe irse.
El OCR es solo una de muchas tareas útiles de visión -> texto. Y las tareas de texto -> texto pueden hacerse para ser tareas de visión -> texto. No al revés.
Así que muchos mensajes de usuario son imágenes, pero el decodificador (la respuesta del asistente) sigue siendo texto. Es mucho menos obvio cómo outputear píxeles de manera realista... o si querrías hacerlo.
Ahora también tengo que luchar contra la urgencia de desviar a una versión de nanochat solo de entrada de imagen...
392,34K
Parte superior
Clasificación
Favoritos