Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acidentalmente, construímos sistemas de IA autoaperfeiçoáveis. Este artigo da Universidade de Oxford prova isso.
A maioria das pessoas assume que as melhorias nos modelos vêm de arquiteturas maiores ou de pipelines de aprendizado por reforço cuidadosamente projetados.
Este trabalho mostra algo mais sutil e mais inquietante.
Se você implantar um modelo, permitir que os usuários interajam com ele, filtrar as falhas e ajustar apenas os rastros bem-sucedidos, o modelo começa a melhorar suas habilidades de planejamento por conta própria.
Sem recompensas explícitas, currículo elaborado e sem planejador externo.
Apenas iteração.
Os autores chamam isso de implantação iterativa, e testam em ambientes de planejamento controlados como Blocksworld, Rovers e Sokoban.
A configuração é simples:
1. Implantar um LLM em tarefas de planejamento
2. Manter apenas os planos que realmente funcionam
3. Ajustar a próxima versão com base nesses rastros válidos
Repetir
Após apenas cinco gerações, o desempenho em planejamento mais do que dobra em todos os domínios. Em alguns casos, melhora de 4 a 5 vezes. Ainda mais interessante, gerações posteriores descobrem planos muito mais longos do que o modelo base, mostrando uma verdadeira generalização fora da distribuição, não apenas truques de formatação ou conformidade com prompts.
Aqui está a chave.
O artigo prova que esse processo é matematicamente equivalente ao aprendizado por reforço com um sinal de recompensa binário.
Mas a função de recompensa nunca é escrita.
...

Top
Classificação
Favoritos
