"O próximo momento GPT-3 para RL" Postagem interessante de @MechanizeWork sobre a mudança para o treinamento em larga escala em milhares de ambientes diversos. "Da mesma forma, suspeitamos que o momento GPT-3 para RL será possibilitado em grande parte por um paradigma que chamamos de treinamento de replicação. Esse paradigma proposto envolve a tarefa de as IAs duplicarem produtos de software existentes ou recursos específicos dentro deles. Ferramentas simples de linha de comando que implementam algoritmos obscuros de hash e criptografia são alvos iniciais diretos, mas essa abordagem pode facilmente se estender a softwares mais complexos, como sites, software profissional e jogos.
Link:
688