هناك الكثير من الالتباس عبر الإنترنت حول ماهية بيئة RL حقا. إنه حرفيا مجرد معيار. - بيئة - حالة البداية - مدقق يتحقق مما إذا كانت الحالة النهائية صحيحة أو مقبولة البيئة عبارة عن صندوق رمل صغير يمنح LLM فرصة للتفاعل فعليا - اتخاذ الإجراءات ، ورؤية النتائج ، والتأثير على العالم الذي يتواجد فيه. في حالة TerminalBench ، إنها مجرد حاوية Docker تحاكي محطة مطوري حقيقية ، كاملة مع الملفات والتبعيات وأدوات النظام التي يمكن للنموذج استخدامها. تحدد حالة البداية ما يراه النموذج عند بدء المهمة - المدخلات والسياق والشروط الأولية. في معيار الترميز ، قد تكون هذه هي حالة مستودع Git عندما بدأ المستخدم العمل لأول مرة: الملفات ، وتقرير الخطأ ، والاختبارات الفاشلة ، وموجه بدء المستخدم الذي يخبر النموذج بما يجب القيام به. إنه "إعداد المشكلة" ، المجمد في الوقت المناسب ، لذلك يبدأ كل نموذج من نفس الموضع ويمكن مقارنة النتيجة بشكل عادل. أخيرا ، المدقق هو ما يجعل الأمر برمته قابلا للقياس. إنها القطعة التي تتحقق مما إذا كان النموذج قد حل المهمة بالفعل - القاضي الآلي الذي يحول المخرجات الفوضوية إلى درجة بسيطة أو إشارة نجاح / رسوب. لهذا السبب تسمع الناس في المختبرات يقولون "لقد تدربنا على أدوات التحقق". إنهم يتحدثون عن وجود طريقة آلية لتسجيل سلوك النموذج. تصبح هذه بعد ذلك وظيفة المكافأة ل RL ، أو إشارة النجاح / الفشل للمعايير.