Solo un aviso amistoso de que las evaluaciones no son entornos de refuerzo (RL). La razón principal de esto es que las evaluaciones no suelen recompensar hacks; el RL en línea a menudo encontrará una manera si dejas uno abierto. Puedes construir evaluaciones que sean iguales a los entornos de RL, pero deben ser mucho más robustas de lo que es típico.