Finalmente encontrei um bom caso de uso para subagentes. Tornando os modelos de política mais inteligentes, criando automaticamente ambientes de RL a partir de dados de tarefas do mundo real. Puta merda, realmente funciona