Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hier ist der Ritual Research Digest dieser Woche, ein Newsletter, der die neuesten Entwicklungen in der Welt der LLMs und der Schnittstelle von Crypto x AI abdeckt.
Mit Hunderten von wöchentlich veröffentlichten Arbeiten ist es unmöglich, auf dem neuesten Stand zu bleiben. Wir lesen für Sie, damit Sie es nicht müssen.

Tokens mit niedriger Wahrscheinlichkeit unterstützen die Erkundung im Reinforcement Learning mit verifizierbarem Reward
Dieses Papier stellt fest, dass der Engpass von Modellierungsansätzen möglicherweise aus der Eliminierung von Tokens mit niedriger Wahrscheinlichkeit, die sie "Reasoning Sparks" nennen, resultiert.

Sie führen Lp-Reg ein, um wertvolle Token mit niedriger Wahrscheinlichkeit durch Regularisierung zu erhalten. Lp-Reg verwirft zunächst rauschende Token mit niedriger Wahrscheinlichkeit und verteilt dann die Wahrscheinlichkeitsmasse unter den verbleibenden Kandidaten neu.
Bei 5 mathematischen Benchmarks auf Qwen3-14B verbessern sie sich um 2,66 %.

Zur Rolle der Temperatursampling beim Testzeit-Skalieren
Die jüngste Skalierung des Testzeit-Skalierens (TTS) hat Pass@k auf 1024 erhöht, aber haben wir die Obergrenze der TTS-Leistung erreicht? Die Arbeiten zeigen, dass wir durch Temperatursampling TTS weiter skalieren können.

Die Arbeiten zeigen, dass die Temperatur eine neue Dimension für das Skalieren zur Testzeit sein kann. Durch Experimente mit Qwen3 (0,6B, 1,7B, 4B, 8B) und fünf Benchmarks ergibt das Temperaturskalieren 7,3 Punkte gegenüber der Ein-Temperatur-TTS. Sie entwerfen auch eine effiziente Methode für das T-Skalieren.


DiffuSpec: Entsperrung von Diffusions-Sprachmodellen für spekulatives Decoding
Diffusionsmodelle als Entwurfshilfen für spekulatives Decoding sind aufgrund der höheren Token-Vorschlagsrate pro Schritt und der besseren Vorschlagsqualität gut geeignet.

Allerdings leiden Diffusionsmodelle unter Problemen im Zusammenhang mit kausaler Ausrichtung und Entwurfsdauer.
Um diese Probleme zu beheben, präsentiert das Papier DiffuSpec, eine trainingsfreie Methode. Bei verschiedenen Aufgaben liefert es eine bis zu 3× schnellere Wand-Uhr-Zeit und übertrifft andere trainingsfreie Baselines.

Durch die Generierung synthetischer Daten mit unterschiedlichen Schwierigkeitsgraden der Lesbarkeit stellen sie fest, dass Lesbarkeit nicht der Schlüssel zur Kohärenz in kleinen Sprachmodellen ist.
Ihre Ergebnisse deuten darauf hin, dass statistische Einfachheit ein stärkerer Prädiktor für die Lernfähigkeit in SLM ist.

Folge uns @ritualdigest für mehr über alles, was mit Krypto x AI-Forschung zu tun hat, und @ritualnet, um mehr darüber zu erfahren, was Ritual aufbaut.
1,45K
Top
Ranking
Favoriten