Acidentalmente, construímos sistemas de IA autoaperfeiçoáveis. Este artigo da Universidade de Oxford prova isso. A maioria das pessoas assume que as melhorias nos modelos vêm de arquiteturas maiores ou de pipelines de aprendizado por reforço cuidadosamente projetados. Este trabalho mostra algo mais sutil e mais inquietante. Se você implantar um modelo, permitir que os usuários interajam com ele, filtrar as falhas e ajustar apenas os rastros bem-sucedidos, o modelo começa a melhorar suas habilidades de planejamento por conta própria. Sem recompensas explícitas, currículo elaborado e sem planejador externo. Apenas iteração. Os autores chamam isso de implantação iterativa, e testam em ambientes de planejamento controlados como Blocksworld, Rovers e Sokoban. A configuração é simples: 1. Implantar um LLM em tarefas de planejamento 2. Manter apenas os planos que realmente funcionam 3. Ajustar a próxima versão com base nesses rastros válidos Repetir Após apenas cinco gerações, o desempenho em planejamento mais do que dobra em todos os domínios. Em alguns casos, melhora de 4 a 5 vezes. Ainda mais interessante, gerações posteriores descobrem planos muito mais longos do que o modelo base, mostrando uma verdadeira generalização fora da distribuição, não apenas truques de formatação ou conformidade com prompts. Aqui está a chave. O artigo prova que esse processo é matematicamente equivalente ao aprendizado por reforço com um sinal de recompensa binário. Mas a função de recompensa nunca é escrita. ...