Ecco il Digest di Ricerca Rituale di questa settimana, una newsletter che copre le ultime novità nel mondo dei LLM e l'intersezione tra Crypto e AI. Con centinaia di articoli pubblicati settimanalmente, rimanere aggiornati con le ultime novità è impossibile. Noi facciamo la lettura così non dovete farlo voi.
I Token a bassa probabilità sostengono l'esplorazione nell'apprendimento per rinforzo con ricompense verificabili Questo articolo scopre che il collo di bottiglia dei modelli di ragionamento può derivare dall'eliminazione dei token esplorativi a bassa probabilità (che vengono definiti Scintille di Ragionamento).
Introdurranno Lp-Reg per preservare i preziosi token a bassa probabilità tramite regolarizzazione. Lp-Reg scarta prima i token rumorosi a bassa probabilità e poi ridistribuisce la massa di probabilità tra i candidati rimanenti. Su 5 benchmark matematici su Qwen3-14B, migliorano del 2,66%.
Sul Ruolo del Campionamento della Temperatura nella Scalabilità al Momento del Test La recente scalabilità della Scalabilità al Momento del Test (TTS) ha aumentato il Pass@k a 1024, ma abbiamo raggiunto il limite delle prestazioni del TTS? I documenti mostrano, attraverso il campionamento della temperatura, che possiamo ulteriormente scalare il TTS.
I documenti mostrano che la temperatura può essere una nuova dimensione per la scalatura durante il test. Attraverso esperimenti su Qwen3 (0.6B, 1.7B, 4B, 8B) e cinque benchmark, la scalatura della temperatura produce 7.3 punti rispetto al TTS a temperatura singola. Hanno anche progettato un metodo efficiente per la T-scaling.
DiffuSpec: Sbloccare i modelli di linguaggio di diffusione per la decodifica speculativa I modelli di diffusione come redattori per la decodifica speculativa sono una buona scelta grazie a un throughput di proposta di token per passo più elevato e a una qualità di proposta più forte.
Tuttavia, i modelli di diffusione soffrono di problemi legati all'allineamento causale e alla lunghezza del draft. Per affrontare questi problemi, il documento presenta DiffuSpec, un metodo senza addestramento. In vari compiti, offre un'accelerazione fino a 3× in termini di tempo reale, superando altre basi senza addestramento.
Generando dati sintetici di vari gradi di difficoltà di leggibilità, scoprono che la leggibilità non è la chiave per la coerenza nei piccoli modelli linguistici. I loro risultati suggeriscono che la semplicità statistica è un predittore più forte della capacità di apprendimento nei SLM.
Seguici su @ritualdigest per ulteriori informazioni su tutto ciò che riguarda la ricerca crypto x AI, e @ritualnet per saperne di più su cosa sta costruendo Ritual.
1,46K