Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Construyendo @EurekaLabsAI. Anteriormente Director de IA @ Tesla, equipo fundador @ OpenAI, CS231n/PhD @ Stanford. Me gusta entrenar grandes redes neuronales profundas.
Me gusta bastante el nuevo artículo de DeepSeek-OCR. Es un buen modelo de OCR (tal vez un poco peor que los puntos), y sí, recopilación de datos, etc., pero de todos modos no importa.
La parte más interesante para mí (especialmente como un visionario por computadora de corazón que se hace pasar temporalmente por una persona de lenguaje natural) es si los píxeles son mejores entradas para los LLM que el texto. Si los tokens de texto son un desperdicio y simplemente terribles, en la entrada.
Tal vez tenga más sentido que todas las entradas a los LLM solo sean imágenes. Incluso si tiene una entrada de texto puro, tal vez prefiera renderizarlo y luego introducirlo:
- más compresión de información (ver artículo) = > ventanas de contexto más cortas, más eficiencia
- flujo de información significativamente más general => no solo texto, sino, por ejemplo, texto en negrita, texto en color, imágenes arbitrarias.
- La entrada ahora se puede procesar con atención bidireccional fácilmente y de forma predeterminada, no con atención autorregresiva, mucho más poderosa.
- ¡¡Elimina el tokenizador (en la entrada)!! Ya me quejé de lo mucho que me disgusta el tokenizador. Los tokenizadores son feos, separados, no una etapa de extremo a extremo. "Importa" toda la fealdad de Unicode, codificaciones de bytes, hereda una gran cantidad de equipaje histórico, riesgo de seguridad / jailbreak (por ejemplo, bytes de continuación). Hace que dos caracteres que se ven idénticos al ojo se vean como dos tokens completamente diferentes internamente en la red. Un emoji sonriente parece una ficha extraña, no un... cara sonriente real, píxeles y todo, y todo el aprendizaje de transferencia que conlleva. El tokenizador debe desaparecer.
OCR es solo una de las muchas tareas útiles de visión > texto. Y las tareas de texto > texto se pueden convertir en tareas de visión >texto. No al revés.
Tantos que el mensaje del usuario son imágenes, pero el decodificador (la respuesta del Asistente) sigue siendo texto. Es mucho menos obvio cómo generar píxeles de manera realista ... o si quieres.
Ahora también tengo que luchar contra el impulso de realizar una misión secundaria de una versión de nanochat de solo entrada de imágenes ...

vLLM20 oct, 19:31
🚀 DeepSeek-OCR, la nueva frontera de OCR de @deepseek_ai, que explora la compresión óptica de contexto para LLM, se ejecuta increíblemente rápido en vLLM ⚡ (~ 2500 tokens/s en A100-40G), impulsado por vllm == 0.8.5 para soporte de modelo de día 0.
🧠 Comprime los contextos visuales hasta un 20× manteniendo una precisión de OCR del 97% en <10×.
📄 Supera a GOT-OCR2.0 y MinerU2.0 en OmniDocBench utilizando menos tokens de visión.
🤝 El equipo de vLLM está trabajando con DeepSeek para llevar el soporte oficial de DeepSeek-OCR a la próxima versión de vLLM, lo que hace que la inferencia multimodal sea aún más rápida y fácil de escalar.
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2.51M
Es un placer venir a Dwarkesh la semana pasada, pensé que las preguntas y la conversación eran realmente buenas.
Volví a ver la cápsula hace un momento también. En primer lugar, sí, lo sé, y lamento haber hablado tan rápido :). Es en mi detrimento porque a veces mi hilo de hablar supera a mi hilo de pensamiento, así que creo que arruiné algunas explicaciones debido a eso, y a veces también estaba nervioso de que me estaba yendo demasiado por la tangente o demasiado profundo en algo relativamente espurio. De todos modos, algunas notas / consejos:
Plazos de AGI. Mis comentarios sobre los plazos de AGI parecen ser la parte más popular de la respuesta temprana. Esta es la "década de los agentes" es una referencia a este tweet anterior Básicamente, mis líneas de tiempo de IA son aproximadamente 5-10 veces pesimistas con respecto a lo que encontrarás en la fiesta de la casa de SF AI de tu vecindario o en tu línea de tiempo de Twitter, pero aún así son bastante optimistas con respecto a una marea creciente de negacionistas y escépticos de la IA. El conflicto aparente no es: en mi opinión, simultáneamente 1) vimos una gran cantidad de progreso en los últimos años con los LLM, mientras que 2) todavía queda mucho trabajo por hacer (trabajo pesado, trabajo de integración, sensores y actuadores al mundo físico, trabajo social, trabajo de seguridad y protección (fugas de la cárcel, envenenamiento, etc.)) y también investigación para hacer antes de que tengamos una entidad que preferiría contratar a una persona para un trabajo arbitrario en el mundo. Creo que, en general, 10 años debería ser una línea de tiempo muy alcista para AGI, solo en contraste con la exageración actual que no se siente así.
Animales vs fantasmas. Mi artículo anterior sobre el podcast de Sutton. Sospecho que hay un solo algoritmo simple que puedes soltar en el mundo y aprende todo desde cero. Si alguien construye algo así, me equivocaré y será el avance más increíble en IA. En mi opinión, los animales no son un ejemplo de esto en absoluto: están preempaquetados con una tonelada de inteligencia por evolución y el aprendizaje que hacen es bastante mínimo en general (ejemplo: cebra al nacer). Poniéndonos nuestros sombreros de ingeniería, no vamos a rehacer la evolución. Pero con los LLM nos hemos topado con un enfoque alternativo para "preempaquetar" una tonelada de inteligencia en una red neuronal, no por evolución, sino por predecir el próximo token a través de Internet. Este enfoque conduce a un tipo diferente de entidad en el espacio de inteligencia. Distinto de los animales, más como fantasmas o espíritus. Pero podemos (y debemos) hacerlos más animales con el tiempo y, de alguna manera, de eso se trata gran parte del trabajo fronterizo.
En RL. Ya he criticado a RL varias veces, por ejemplo. . Primero, estás "chupando la supervisión a través de una pajita", así que creo que la señal/flop es muy mala. RL también es muy ruidoso porque una finalización puede tener muchos errores que pueden generar estímulos (si tropieza con la respuesta correcta) y, por el contrario, fichas de información brillantes que pueden desanimarse (si se equivoca más tarde). La supervisión del proceso y los jueces de LLM también tienen problemas. Creo que veremos paradigmas de aprendizaje alternativos. Soy largo "interacción agencial" pero corto "aprendizaje por refuerzo" He visto aparecer una serie de artículos recientemente que, en mi opinión, están ladrando al árbol correcto en la línea de lo que llamé "aprendizaje rápido del sistema", pero creo que también hay una brecha entre las ideas sobre arxiv y la implementación real, a escala, en un laboratorio fronterizo de LLM que funciona de manera general. En general, soy bastante optimista de que veremos un buen progreso en esta dimensión del trabajo restante muy pronto y, por ejemplo, incluso diría que la memoria ChatGPT, etc., son ejemplos primordiales desplegados de nuevos paradigmas de aprendizaje.
Núcleo cognitivo. Mi publicación anterior sobre "núcleo cognitivo": , la idea de despojar a los LLM, de dificultarles la memorización, o despojarlos activamente de su memoria, para hacerlos mejores en la generalización. De lo contrario, se apoyan demasiado en lo que han memorizado. Los humanos no pueden memorizar tan fácilmente, lo que ahora parece más una característica que un error por contraste. Tal vez la incapacidad de memorizar es una especie de regularización. También mi publicación de hace un tiempo sobre cómo la tendencia en el tamaño de los modelos es "al revés" y por qué "los modelos tienen que hacerse más grandes antes de que puedan hacerse más pequeños"
Viaje en el tiempo a Yann LeCun 1989. Esta es la publicación que hice un trabajo muy apresurado / mal al describir en la cápsula: . Básicamente, ¿cuánto podría mejorar los resultados de Yann LeCun con el conocimiento de 33 años de progreso algorítmico? ¿Qué tan limitados fueron los resultados por cada uno de los algoritmos, datos y computación? Estudio de caso de ello.
nanochat. Mi implementación de extremo a extremo de la canalización de entrenamiento/inferencia de ChatGPT (lo esencial)
Sobre los agentes de LLM. Mi crítica a la industria está más en sobrepasar la capacidad actual de las herramientas. Vivo en lo que veo como un mundo intermedio en el que quiero colaborar con los LLM y donde nuestros pros y contras coinciden. La industria vive en un futuro en el que entidades totalmente autónomas colaboran en paralelo para escribir todo el código y los humanos son inútiles. Por ejemplo, no quiero un agente que se apague durante 20 minutos y regrese con 1,000 líneas de código. Ciertamente no me siento listo para supervisar un equipo de 10 de ellos. Me gustaría ir en trozos que pueda mantener en mi cabeza, donde un LLM explique el código que está escribiendo. Me gustaría que me demostrara que lo que hizo es correcto, quiero que saque los documentos de la API y me muestre que usó las cosas correctamente. Quiero que haga menos suposiciones y pregunte / colabore conmigo cuando no esté seguro de algo. Quiero aprender en el camino y mejorar como programador, no solo recibir montañas de código que me dicen que funciona. Creo que las herramientas deberían ser más realistas en cuanto a su capacidad y cómo encajan en la industria actual, y me temo que si esto no se hace bien, podríamos terminar con montañas de basura acumulándose en todo el software y un aumento de vulnerabilidades, brechas de seguridad, etc.
Automatización de trabajos. Cómo les está yendo bien a los radiólogos y qué trabajos son más susceptibles a la automatización y por qué.
Física. Los niños deben aprender física en la educación temprana no porque pasen a hacer física, sino porque es la materia que mejor inicia un cerebro. Los físicos son la célula madre embrionaria intelectual Tengo una publicación más larga que ha estado a medio escribir en mis borradores durante ~ año, que espero terminar pronto.
¡Gracias de nuevo Dwarkesh por invitarme!

Dwarkesh Patel18 oct, 01:16
La entrevista @karpathy
0:00:00 - Todavía falta una década para AGI
0:30:33 - Déficits cognitivos de LLM
0:40:53 - RL es terrible
0:50:26 - ¿Cómo aprenden los humanos?
1:07:13 - AGI se combinará con un crecimiento del PIB del 2%
1:18:24 - ASI
1:33:38 – Evolución de la inteligencia y la cultura
1:43:43 - Por qué la conducción autónoma tardó tanto
1:57:08 - Futuro de la educación
Busca Dwarkesh Podcast en YouTube, Apple Podcasts, Spotify, etc. ¡Disfruta!
3.36M
La televisión en los 90: la enciendes, miras.
TV 2025:
- Enciende, espera a que se cargue
- popup: El televisor quiere actualizarse, 1,5 GB. No.
- Desplácese hacia los lados, busque la aplicación Prime Video o etc.
- popup: ahora la aplicación quiere actualizarse, 500 MB. ¡¡No!!
- Lanzamiento de aplicaciones... Cargando aplicaciones...
- Seleccionar pantalla de cuenta
- 🫠
1.6M
Populares
Ranking
Favoritas