Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI. Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.
Tokens de baixa probabilidade sustentam a exploração no aprendizado por reforço com recompensa verificável Este artigo descobriu que o gargalo dos modelos de raciocínio pode resultar da eliminação de tokens exploratórios de baixa probabilidade (eles os chamam de Reasoning Sparks).
Eles introduzem o Lp-Reg para preservar valiosos tokens de baixa probabilidade por meio da regularização. O Lp-Reg primeiro descarta tokens barulhentos de baixa probabilidade e, em seguida, redistribui a massa de probabilidade entre os candidatos restantes. Em 5 benchmarks matemáticos no Qwen3-14B, eles melhoram em 2,66%.
Sobre o papel da amostragem de temperatura na escala de tempo de teste O dimensionamento recente do TTS (escala de tempo de teste) aumentou Pass@k para 1024, mas atingimos o teto de desempenho do TTS? Os artigos mostram, por meio da amostragem de temperatura, que podemos dimensionar ainda mais o TTS.
Os artigos mostram que a temperatura pode ser uma nova dimensão para o dimensionamento no momento do teste. Por meio de experimentos em Qwen3 (0,6B, 1,7B, 4B, 8B) e cinco benchmarks, a escala de temperatura rende 7,3 pontos em relação ao TTS de temperatura única. Eles também projetam um método eficiente para escala T.
DiffuSpec: Desbloqueando modelos de linguagem de difusão para decodificação especulativa Os modelos de difusão como redatores para decodificação especulativa são uma boa opção devido à maior taxa de transferência de proposta de token por etapa e à qualidade mais forte da proposta.
No entanto, os modelos de difusão sofrem de problemas relacionados ao alinhamento causal e ao comprimento do calado. Para resolver esses problemas, o artigo apresenta o DiffuSpec, um método livre de treinamento. Em diversas tarefas, ele oferece até 3× de aceleração do relógio de parede, superando outras linhas de base sem treinamento.
Ao gerar dados sintéticos de vários graus de dificuldade de legibilidade, eles descobriram que a legibilidade não é a chave para a coerência em modelos de linguagem pequenos. Suas descobertas sugerem que a simplicidade estatística é um preditor mais forte da capacidade de aprendizado no SLM.
Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e @ritualnet para saber mais sobre o que a Ritual está construindo.
1,45K