Просто дружній PSA, який evals є != rl середовищами. Основна причина цього полягає в тому, що evals зазвичай не винагороджують hack, онлайн-RL часто знайде спосіб, якщо ви залишите один відкритим. Ви можете побудувати evals, які є == rl середовищами, але вони повинні бути набагато більш загартованими, ніж це зазвичай.