Hanya PSA ramah yang evals adalah != rl lingkungan. Alasan utama untuk ini adalah bahwa evals biasanya tidak memberi hadiah peretasan, RL online akan sering menemukan cara jika Anda membiarkannya terbuka. Anda dapat membuat eval yang == lingkungan rl, tetapi mereka harus jauh lebih keras daripada biasanya.