Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aquí está el Digest de Investigación Ritual de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI.
Con cientos de artículos publicados semanalmente, mantenerse al día con lo último es imposible. Hacemos la lectura para que tú no tengas que hacerlo.

Los tokens de baja probabilidad sostienen la exploración en el aprendizaje por refuerzo con recompensas verificables
Este artículo encuentra que el cuello de botella de los modelos de razonamiento puede derivarse de la eliminación de tokens exploratorios de baja probabilidad (los denominan Chispas de Razonamiento).

Introducen Lp-Reg para preservar tokens valiosos de baja probabilidad a través de la regularización. Lp-Reg primero descarta tokens ruidosos de baja probabilidad y luego redistribuye la masa de probabilidad entre los candidatos restantes.
En 5 benchmarks matemáticos en Qwen3-14B, mejoran en un 2.66%.

Sobre el papel del muestreo de temperatura en la escalabilidad en el tiempo de prueba
La reciente escalabilidad del escalado en el tiempo de prueba (TTS) ha aumentado el Pass@k a 1024, pero ¿hemos alcanzado el límite del rendimiento de TTS? El artículo muestra, a través del muestreo de temperatura, que podemos escalar aún más el TTS.

Los documentos muestran que la temperatura puede ser una nueva dimensión para la escalabilidad en el momento de la prueba. A través de experimentos en Qwen3 (0.6B, 1.7B, 4B, 8B) y cinco benchmarks, la escalabilidad de temperatura produce 7.3 puntos sobre TTS de temperatura única. También diseñan un método eficiente para la T-escalabilidad.


DiffuSpec: Desbloqueando Modelos de Lenguaje de Difusión para la Decodificación Especulativa
Los modelos de difusión como redactores para la decodificación especulativa son una buena opción debido a un mayor rendimiento de propuesta de tokens por paso y una mejor calidad de propuesta.

Sin embargo, los modelos de difusión sufren de problemas relacionados con la alineación causal y la longitud del borrador.
Para abordar estos problemas, el documento presenta DiffuSpec, un método sin entrenamiento. A través de diversas tareas, ofrece hasta 3× de aceleración en el tiempo de reloj, superando a otras líneas base sin entrenamiento.

Al generar datos sintéticos de diferentes grados de dificultad de legibilidad, descubren que la legibilidad no es la clave para la coherencia en los modelos de lenguaje pequeños.
Sus hallazgos sugieren que la simplicidad estadística es un predictor más fuerte de la capacidad de aprendizaje en los MLP.

Síguenos en @ritualdigest para más información sobre todo lo relacionado con la investigación en cripto x IA, y
@ritualnet para aprender más sobre lo que Ritual está construyendo.
1,41K
Parte superior
Clasificación
Favoritos