Berikut adalah Ritual Research Digest minggu ini, buletin yang mencakup yang terbaru di dunia LLM dan persimpangan Crypto x AI. Dengan ratusan makalah yang diterbitkan setiap minggu, tidak mungkin mengikuti perkembangan terbaru. Kami melakukan pembacaan sehingga Anda tidak perlu melakukannya.
Token probabilitas rendah mempertahankan eksplorasi dalam pembelajaran penguatan dengan hadiah yang dapat diverifikasi Makalah ini menemukan bahwa kemacetan model penalaran mungkin berasal dari penghapusan token eksplorasi probabilitas rendah (mereka menyebutnya Reasoning Sparks).
Mereka memperkenalkan Lp-Reg untuk mempertahankan token probabilitas rendah yang berharga melalui regularisasi. Lp-Reg pertama-tama membuang token probabilitas rendah yang berisik dan kemudian mendistribusikan kembali massa probabilitas di antara kandidat yang tersisa. Pada 5 tolok ukur matematika pada Qwen3-14B, mereka meningkat sebesar 2,66%.
Tentang Peran Pengambilan Sampel Suhu dalam Penskalaan Waktu Pengujian Penskalaan Pengujian waktu (TTS) baru-baru ini telah meningkat Pass@k menjadi 1024, tetapi apakah kita telah mencapai batas kinerja TTS? Makalah menunjukkan, melalui pengambilan sampel suhu, bahwa kita dapat menskalakan TTS lebih lanjut.
Makalah menunjukkan bahwa suhu dapat menjadi dimensi baru untuk penskalaan pada waktu pengujian. Melalui percobaan di Qwen3 (0,6B, 1,7B, 4B, 8B) dan lima tolok ukur, penskalaan suhu menghasilkan 7,3 poin dibandingkan TTS suhu tunggal. Mereka juga merancang metode yang efisien untuk T-scaling.
DiffuSpec: Membuka Model Bahasa Difusi untuk Decoding Spekulatif Model difusi sebagai penyusun untuk decoding spekulatif sangat cocok karena throughput proposal token per langkah yang lebih tinggi, dan kualitas proposal yang lebih kuat.
Namun, model difusi mengalami masalah yang terkait dengan penyelarasan kausal dan panjang draf. Untuk mengatasi masalah ini, makalah ini menyajikan DiffuSpec, metode bebas pelatihan. Di berbagai tugas, ini memberikan kecepatan jam dinding hingga 3×, mengungguli garis dasar bebas pelatihan lainnya.
Dengan menghasilkan data sintetis dengan berbagai tingkat kesulitan keterbacaan, mereka menemukan bahwa keterbacaan bukanlah kunci koherensi dalam model bahasa kecil. Temuan mereka menunjukkan bahwa kesederhanaan statistik adalah prediktor yang lebih kuat dari kemampuan belajar dalam SLM.
Ikuti kami @ritualdigest untuk informasi lebih lanjut tentang semua hal tentang penelitian crypto x AI, dan @ritualnet untuk mempelajari lebih lanjut tentang apa yang dibangun Ritual.
1,46K