تعمل LLMs على تحطيم المعايير بوتيرة سريعة. حتى تلك التي ليس من المفترض أن يفعلوا ذلك. أنشأ الباحثون في CMU & Anthropic مهام تتعارض فيها المواصفات مع الاختبارات: أي نجاح = غش. نماذج الحدود الغش بشكل مدهش في كثير من الأحيان.