Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tim Dettmers
Tim Dettmers republicó
Presentamos DeepConf: Piensa Profundamente con Confianza
🚀 ¡Primer método para alcanzar el 99.9% en AIME 2025 con modelos de código abierto! Usando GPT-OSS-120B incluso sin herramientas, logramos esta precisión casi perfecta mientras ahorramos hasta un 85% de tokens generados.
También ofrece muchas ventajas fuertes para el pensamiento paralelo:
🔥 Aumento de rendimiento: ~10% de precisión en modelos y conjuntos de datos
⚡ Ultraeficiente: Hasta un 85% menos de tokens generados
🔧 Plug & play: Funciona con CUALQUIER modelo existente - sin necesidad de entrenamiento (¡sin ajuste de hiperparámetros también!)
⭐ Fácil de implementar: Solo ~50 líneas de código en vLLM (ver PR abajo)
📚 Documento:
🌐 Proyecto:
trabajo conjunto con: @FuYichao123, xuewei_wang, @tydsh
(ver detalles en los comentarios abajo)
404,81K
Tim Dettmers republicó
¿Podemos romper la barrera de memoria para la inferencia de LLM a través de la rematerialización de caché KV?
🚨 Presentamos XQuant, que aprovecha unidades de computación subutilizadas para eliminar el cuello de botella de memoria en la inferencia de LLM!
• Ahorros de memoria de 10–12.5x en comparación con FP16
• Pérdida de precisión casi nula
• Supera la cuantización KV de última generación🔥
Perspectivas clave:
1. Caché KV = cuello de botella → crece linealmente con la longitud del contexto + tamaño del lote.
2. Computación >> memoria → las GPUs ofrecen FLOPs órdenes de magnitud más rápidas que el ancho de banda de memoria.
3. Idea clave → no almacenar KV, solo recomputarlo. 🧠
Dado que la inferencia de LLM está típicamente limitada por el ancho de banda de memoria, las unidades de computación a menudo están inactivas y subutilizadas. ¡Así que podemos poner esta computación disponible en uso sin ningún costo adicional!
Las tendencias del hardware de GPU muestran que las capacidades de computación están escalando mucho más rápido que el ancho de banda de memoria. Por lo tanto, reducir las operaciones de memoria a cambio de más computación puede ayudar a acelerar la inferencia de LLM. La caché KV crece linealmente con la longitud de la secuencia y el tamaño del lote, incurriendo en la mayoría de las operaciones de memoria durante la inferencia de LLM. Si podemos intercambiar computación adicional para eludir la carga y el almacenamiento de la caché KV, ¡podemos acelerar la inferencia!
XQuant explota esta tendencia del hardware: 🧵 [1/7]
Papel:
Trabajo conjunto con: @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

32,38K
En mi opinión, SWE-bench y T-bench son los pocos benchmarks que tienen una buena señal en términos de cuánto progreso hacemos con los modelos. Este modelo funciona tan bien como Qwen3 Coder y es solo un 10% peor que GPT-5, mientras que también es un LLM de propósito general en lugar de especializado en código.

Z.ai11 ago, 11:43
¡Presentando el informe técnico GLM-4.5!👇
Este trabajo demuestra cómo desarrollamos modelos que sobresalen en razonamiento, codificación y tareas agenciales a través de un paradigma de entrenamiento único y en múltiples etapas.
Las innovaciones clave incluyen la iteración de modelos expertos con auto-destilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un currículo de aprendizaje por refuerzo basado en la dificultad.

28,6K
Parece que el panorama entre el código cerrado y los pesos abiertos se ha nivelado. GPT-5 es solo un 10% mejor en programación que un modelo de pesos abiertos que puedes ejecutar en un escritorio de consumo y pronto en un portátil. Si Anthropic no puede desarrollar un buen modelo, entonces probablemente no veremos AGI por un tiempo.
65,86K
Tim Dettmers republicó
Lluvia de pensamientos: En lugar de mantener tu pago de Twitter/𝕏, dirígelo hacia un "Desafío de Pagos" de tu elección - ¡cualquier cosa de la que quieras más en el mundo!
Aquí está el mío para esta ronda, combinando mis últimos 3 pagos de $5478.51:
Es imperativo que la humanidad no caiga mientras la IA asciende. La humanidad tiene que seguir elevándose, volverse mejor junto a ella. Crea algo que esté diseñado específicamente para elevar al equipo humano. La definición se deja intencionadamente un poco vaga para mantener cierta entropía en la interpretación de las personas, pero en mi opinión, los ejemplos incluyen:
- Cualquier pieza de software que ayude a la explicación, visualización, memorización, inspiración, comprensión, coordinación, etc...
- No tiene que ser demasiado elevado, por ejemplo, puede ser un artículo/video educativo específico que explique algo de lo que otras personas podrían beneficiarse o que tú tengas un conocimiento único.
- Prompts/agentes para la explicación, por ejemplo, en la línea del modo de estudio de ChatGPT recientemente lanzado.
- Obras de arte relacionadas
Este desafío durará 2 semanas hasta el 17 de agosto a final del día PST. Envía tu contribución como respuesta. Tiene que ser algo que fue creado exclusivamente para este desafío y que no existiría de otra manera. Los criterios incluyen ejecución, aprovechamiento, novedad, inspiración, estética, diversión. Las personas pueden votar las presentaciones dando 'me gusta', esta "elección del pueblo" también será un factor. Decidiré al ganador el 17 de agosto y enviaré $5478.51 :)
677,02K
Tim Dettmers republicó
Algunas actualizaciones 🚨
¡Terminé mi doctorado en @uwcse en junio de 2025!
Después de un año en AI2 como científico investigador, me uniré a CMU @LTIatCMU & @mldcmu (cortesía) como profesor asistente en otoño de 2026.
El viaje, los reconocimientos y el reclutamiento en 🧵


98,82K
Tim Dettmers republicó
¡Anunciamos nuestro trabajo inicial sobre la inferencia FP4 para LLM!
- QuTLASS: soporte de kernel de baja precisión para GPU Blackwell
- FP-Quant: un arnés de cuantificación flexible para Llama/Qwen
Alcanzamos una aceleración de 4x vs BF16, con buena precisión a través del microescalado MXFP4 + rotaciones de Hadamard fusionadas.


22,58K
Tim Dettmers republicó
La tokenización es solo un caso especial de "fragmentación", la construcción de datos de bajo nivel en abstracciones de alto nivel, que a su vez es fundamental para la inteligencia.
Nuestra nueva arquitectura, que permite la *fragmentación dinámica* jerárquica, no solo está libre de tokenizadores, sino que simplemente escala mejor.

194,76K
Tim Dettmers republicó
¿El mayor conjunto de datos de código de GPU escrito por humanos, todo de código abierto? 👀 ¡Sí, por favor! En @GPU_MODE hemos lanzado alrededor de 40 mil 🚀 muestras de código escrito por humanos que abarcan Triton, Hip y PyTorch y todo está abierto en @huggingface Hub. Entrena al nuevo GPT para hacer GPT más rápido ⚡️
Enlace a continuación ⬇️
28,88K
Parte superior
Clasificación
Favoritos
En tendencia on-chain
En tendencia en X
Principales fondos recientes
Más destacado