Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Digest do Ritual Research desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção entre Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com o que há de mais recente. Nós fazemos a leitura para que você não precise.

Tokens de baixa probabilidade sustentam a exploração em Aprendizagem por Reforço com Recompensa Verificável
Este artigo conclui que o gargalo dos modelos de raciocínio pode advir da eliminação de tokens exploratórios de baixa probabilidade (que eles chamam de Faíscas de Raciocínio).

Eles introduzem o Lp-Reg para preservar tokens valiosos de baixa probabilidade através da regularização. O Lp-Reg primeiro descarta tokens de baixa probabilidade ruidosos e depois redistribui a massa de probabilidade entre os candidatos restantes.
Em 5 benchmarks matemáticos no Qwen3-14B, eles melhoram em 2,66%.

Sobre o Papel da Amostragem de Temperatura na Escala de Teste em Tempo de Teste
A recente escalabilidade da Escala em Tempo de Teste (TTS) aumentou o Pass@k para 1024, mas chegamos ao teto do desempenho do TTS? O artigo mostra, através da amostragem de temperatura, que podemos escalar ainda mais o TTS.

Os documentos mostram que a temperatura pode ser uma nova dimensão para escalonamento em tempo de teste. Através de experimentos com Qwen3 (0.6B, 1.7B, 4B, 8B) e cinco benchmarks, o escalonamento de temperatura resulta em 7.3 pontos em relação ao TTS de temperatura única. Eles também projetam um método eficiente para T-escalonamento.


DiffuSpec: Desbloqueando Modelos de Linguagem de Difusão para Decodificação Especulativa
Modelos de difusão como redatores para decodificação especulativa são uma boa opção devido ao maior rendimento de propostas de tokens por passo e à melhor qualidade das propostas.

No entanto, os modelos de difusão sofrem de problemas relacionados com o alinhamento causal e a duração do rascunho.
Para resolver esses problemas, o artigo apresenta o DiffuSpec, um método sem necessidade de treino. Em diversas tarefas, ele proporciona um aumento de velocidade de até 3× no tempo de execução, superando outras referências sem treino.

Ao gerar dados sintéticos com diferentes graus de dificuldade de legibilidade, eles descobrem que a legibilidade não é a chave para a coerência em pequenos modelos de linguagem.
As suas descobertas sugerem que a simplicidade estatística é um preditor mais forte de aprendibilidade em SLM.

Siga-nos @ritualdigest para mais informações sobre tudo relacionado a pesquisa em cripto x IA, e
@ritualnet para saber mais sobre o que a Ritual está construindo.
1,45K
Top
Classificação
Favoritos