.@willccbb (líder de pesquisa, Prime Intellect) sobre como os ambientes de RL realmente funcionam: "Um ambiente é essencialmente uma avaliação. Você tem tarefas de entrada, um chicote e, no final, ele pontua o desempenho do seu modelo ou agente. Essa é a configuração que usamos para avaliações e treinamento de RL." Ele acrescenta que o futuro não é apenas "obter 100.000 GPUs em um cluster gigante".
15,11K