În cele din urmă am găsit un caz bun de utilizare pentru subagenți. Simplificarea modelelor de politici prin construirea automată a mediilor RL din datele reale ale sarcinilor. Doamne, chiar funcționează