LLM-urile zdrobesc reperele într-un ritm amețitor. Chiar și cele pe care nu ar trebui să le facă. Cercetătorii de la CMU & Anthropic au creat sarcini în care specificațiile contrazic testele: orice trecere = trișare. Modelele de frontieră trișează surprinzător de des.