Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ed Sealing
<Rant> Pasé 25 años en la industria de defensa (con 8+ en uniforme, 2+ en zonas de guerra).
No tengo amor por el PCCh, pero no importa cómo vea al gobierno de China, sus empresas de investigación de IA están haciendo mucho bien y merecen algo de crédito.
Para cualquiera que piense que Deepseek es una especie de "mal actor", recuerde que si mantuvieran en secreto este tipo de innovaciones, es probable que se adelantaran a las empresas estadounidenses y perdiéramos la carrera de la IA. Empresas como @deepseek_ai y @Alibaba_Qwen están ayudando activamente a avanzar en la IA de SOTA en los EE. UU. y en todo el mundo, y no piden nada a cambio.
Y lo hacen no debido a la abrumadora presión <cough>gpt-oss<cough>, sino porque quieren compartir su investigación y modelos con personas que los ejecutan en sus datos privados, sin preocuparse de que sean recopilados por terceros, utilizados para anuncios o compartidos.
Mientras que empresas como Anthropic intentan activamente impulsar más regulaciones, y OpenAI mantiene en secreto sus innovaciones, pruebas y sistemas, estos laboratorios chinos están impulsando la industria mientras son criticados por los medios occidentales y el NIST (?).
Felicitaciones a ti. Sigue trayéndolo.

Andrej Karpathy21 oct, 06:13
Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (tal vez un poco peor que los puntos), y sí, recopilación de datos, etc., pero de todos modos no importa.
La parte más interesante para mí (especialmente como un visionario por computadora de corazón que se hace pasar temporalmente por una persona de lenguaje natural) es si los píxeles son mejores entradas para los LLM que el texto. Si los tokens de texto son un desperdicio y simplemente terribles, en la entrada.
Tal vez tenga más sentido que todas las entradas a los LLM solo sean imágenes. Incluso si tiene una entrada de texto puro, tal vez prefiera renderizarlo y luego introducirlo:
- más compresión de información (ver artículo) = > ventanas de contexto más cortas, más eficiencia
- flujo de información significativamente más general => no solo texto, sino, por ejemplo, texto en negrita, texto en color, imágenes arbitrarias.
- La entrada ahora se puede procesar con atención bidireccional fácilmente y de forma predeterminada, no con atención autorregresiva, mucho más poderosa.
- ¡¡Elimina el tokenizador (en la entrada)!! Ya me quejé de lo mucho que me disgusta el tokenizador. Los tokenizadores son feos, separados, no una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda una gran cantidad de equipaje histórico, riesgo de seguridad / jailbreak (por ejemplo, bytes de continuación). Hace que dos caracteres que se ven idénticos al ojo se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente parece una ficha extraña, no un... cara sonriente real, píxeles y todo, y todo el aprendizaje de transferencia que conlleva. El tokenizador debe desaparecer.
OCR es solo una de las muchas tareas útiles de visión > texto. Y las tareas de texto > texto se pueden convertir en tareas de visión >texto. No al revés.
Tantos que el mensaje del usuario son imágenes, pero el decodificador (la respuesta del Asistente) sigue siendo texto. Es mucho menos obvio cómo generar píxeles de manera realista ... o si quieres.
Ahora también tengo que luchar contra el impulso de realizar una misión secundaria de una versión de nanochat de solo entrada de imágenes ...
392.34K
Populares
Ranking
Favoritas