Straight Banger, li imediatamente
Kevin Lu
Kevin Lu10/07/2025
Por que você deve parar de trabalhar na pesquisa de RL e, em vez disso, trabalhar no produto // A tecnologia que desbloqueou a grande mudança de escala na IA é a internet, não os transformadores Acho que é bem sabido que os dados são a coisa mais importante na IA, e também que os pesquisadores optam por não trabalhar neles de qualquer maneira. ... O que significa trabalhar com dados (de forma escalável)? A internet forneceu uma fonte rica de dados abundantes, que eram diversos, forneciam um currículo natural, representavam as competências com as quais as pessoas realmente se importam e era uma tecnologia economicamente viável para implantar em escala - tornou-se o complemento perfeito para a previsão do próximo token e foi a sopa primordial para a IA decolar. Sem transformadores, qualquer número de abordagens poderia ter decolado, provavelmente poderíamos ter CNNs ou modelos espaciais de estado no nível do GPT-4.5. Mas não houve uma melhoria drástica nos modelos básicos desde o GPT-4. Os modelos de raciocínio são ótimos em domínios estreitos, mas não um salto tão grande quanto o GPT-4 foi em março de 2023 (há mais de 2 anos...) Temos algo grande com a aprendizagem por reforço, mas o meu medo profundo é que vamos repetir os erros do passado (2015-2020 era RL) e fazer pesquisa de RL que não importa. Da forma como a internet foi a dupla de pré-treino supervisionado, qual será a dupla de RL que levará a um avanço maciço como GPT-1 -> GPT-4? Eu acho que parece co-design de pesquisa-produto.
18,95K