Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Nós fazemos a leitura para que você não precise.

Tokens de baixa probabilidade sustentam a exploração no aprendizado por reforço com recompensa verificável
Este artigo descobriu que o gargalo dos modelos de raciocínio pode resultar da eliminação de tokens exploratórios de baixa probabilidade (eles os chamam de Reasoning Sparks).

Eles introduzem o Lp-Reg para preservar valiosos tokens de baixa probabilidade por meio da regularização. O Lp-Reg primeiro descarta tokens barulhentos de baixa probabilidade e, em seguida, redistribui a massa de probabilidade entre os candidatos restantes.
Em 5 benchmarks matemáticos no Qwen3-14B, eles melhoram em 2,66%.

Sobre o papel da amostragem de temperatura na escala de tempo de teste
O dimensionamento recente do TTS (escala de tempo de teste) aumentou Pass@k para 1024, mas atingimos o teto de desempenho do TTS? Os artigos mostram, por meio da amostragem de temperatura, que podemos dimensionar ainda mais o TTS.

Os artigos mostram que a temperatura pode ser uma nova dimensão para o dimensionamento no momento do teste. Por meio de experimentos em Qwen3 (0,6B, 1,7B, 4B, 8B) e cinco benchmarks, a escala de temperatura rende 7,3 pontos em relação ao TTS de temperatura única. Eles também projetam um método eficiente para escala T.


DiffuSpec: Desbloqueando modelos de linguagem de difusão para decodificação especulativa
Os modelos de difusão como redatores para decodificação especulativa são uma boa opção devido à maior taxa de transferência de proposta de token por etapa e à qualidade mais forte da proposta.

No entanto, os modelos de difusão sofrem de problemas relacionados ao alinhamento causal e ao comprimento do calado.
Para resolver esses problemas, o artigo apresenta o DiffuSpec, um método livre de treinamento. Em diversas tarefas, ele oferece até 3× de aceleração do relógio de parede, superando outras linhas de base sem treinamento.

Ao gerar dados sintéticos de vários graus de dificuldade de legibilidade, eles descobriram que a legibilidade não é a chave para a coerência em modelos de linguagem pequenos.
Suas descobertas sugerem que a simplicidade estatística é um preditor mais forte da capacidade de aprendizado no SLM.

Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre criptomoedas x IA e
@ritualnet para saber mais sobre o que a Ritual está construindo.
1,45K
Melhores
Classificação
Favoritos