.@willccbb (Líder de Pesquisa, Prime Intellect) sobre como os ambientes de RL realmente funcionam: “Um ambiente é essencialmente uma avaliação. Você tem tarefas de entrada, um suporte, e no final ele avalia como seu modelo ou agente se desempenha. Essa é a configuração que usamos tanto para avaliações quanto para treinamento de RL.” Ele acrescenta que o futuro não se trata apenas de “conseguir 100.000 GPUs em um único grande cluster.”
15,1K