LLM:t murskaavat vertailuarvoja huimaa vauhtia. Jopa sellaisia, joita heidän ei pitäisi. CMU & Anthropicin tutkijat loivat tehtäviä, joissa spesifikaatiot ovat ristiriidassa testien kanssa: mikä tahansa läpäisy = huijaaminen. Frontier-mallit huijaavat yllättävän usein.