Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da Internet para aprender. Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM. Nenhum dos dois acima está indo embora (imo), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - realizar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação de especialistas em estatística. E eles podem ser usados tanto para treinamento quanto para avaliação de modelos. Mas, assim como antes, o problema central agora é a necessidade de um conjunto de ambientes grande, diversificado e de alta qualidade, como exercícios para o LLM praticar. De certa forma, lembro-me do primeiro projeto da OpenAI (academia), que era exatamente uma estrutura que esperava construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Portanto, os ambientes eram tarefas simples de controle acadêmico da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório 'verifiers' no GitHub) constrói a versão modernizada voltada especificamente para LLMs, e é um grande esforço/ideia. Eu propus que alguém construísse algo parecido no início deste ano: Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja no lugar, em princípio, a comunidade / indústria pode paralelizar em muitos domínios diferentes, o que é empolgante. Pensamento final - pessoalmente e a longo prazo, estou otimista em relação a ambientes e interações agentes, mas estou pessimista especificamente em relação ao aprendizado por reforço. Eu acho que as funções de recompensa são super sus, e acho que os humanos não usam RL para aprender (talvez eles usem para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam diferentes paradigmas de aprendizagem que são significativamente mais poderosos e eficientes em termos de amostra e que ainda não foram devidamente inventados e dimensionados, embora existam esboços e ideias iniciais (como apenas um exemplo, a ideia de "aprendizado imediato do sistema", movendo a atualização para tokens/contextos e não pesos e, opcionalmente, destilando para pesos como um processo separado, um pouco como o sono).
Prime Intellect
Prime Intellect13 horas atrás
Apresentando o Hub de Ambientes Os ambientes RL são o principal gargalo para a próxima onda de progresso da IA, mas os grandes laboratórios estão bloqueando-os Construímos uma plataforma comunitária para ambientes abertos de crowdsourcing, para que qualquer pessoa possa contribuir com a AGI de código aberto
372,59K