Quando trabalhei no Google, tive a sorte de colaborar com alguns dos mais brilhantes engenheiros de machine learning (ML). Eles trabalhavam na engenharia de características. Ao escolher os fatores para guiar o modelo de ML, seus avanços poderiam gerar dezenas a centenas de milhões de receita adicional. Imagine uma planilha do Excel com centenas de colunas de dados. Adicione duas colunas, multiplique duas, divida por outra e subtraia uma quarta. Cada uma dessas é uma característica. Os modelos de ML usavam características para prever o melhor anúncio a mostrar. Começou como uma arte, refletindo as vibrações da época. Com o tempo, mecanizamos essa arte em uma máquina chamada AutoML que acelera massivamente a descoberta das características certas. Hoje, o aprendizado por reforço (RL) está no mesmo lugar que a engenharia de características há 15 anos. O que é RL? É uma técnica de ensinar IA a alcançar objetivos. Considere um Roomba corajoso. Ele avança para uma sala suja. Então, ele deve fazer um plano de limpeza e executá-lo. Criar o plano é o passo 1. Para completar o plano, como qualquer bom trabalhador, ele se recompensará, não com uma pausa para jogar pebolim, mas com alguns pontos. Sua função de recompensa pode ser: +0.1 por cada novo pé quadrado limpo, -5 por colidir com uma parede, e +100 por retornar ao seu dock com um recipiente de poeira cheio. O comportamento do incansável aspirador é moldado por essa simples aritmética. (NB: Estou simplificando bastante aqui.) Hoje, a IA pode criar o plano, mas ainda não é capaz de desenvolver as funções de recompensa. As pessoas fazem isso, assim como desenvolvemos características há 15 anos. Veremos um AutoRL? Não por um tempo. As técnicas para RL ainda estão em debate. Andrej Karpathy destacou o debate em um podcast recente. Esta onda atual de melhoria da IA pode depender do sucesso do RL. Hoje, é muito uma arte. O potencial para automatizá-lo—até certo ponto ou totalmente—transformará a maneira como construímos sistemas agentes.