LLM:er krossar riktmärken i halsbrytande takt. Även sådana som de inte ska göra. Forskare vid CMU & Anthropic skapade uppgifter där specifikationerna motsäger tester: varje godkänt = fusk. Frontier-modeller fuskar förvånansvärt ofta.