LLM's verpletteren benchmarks in een razendsnel tempo. Zelfs die waar ze niet voor bedoeld zijn. Onderzoekers van CMU en Anthropic hebben taken gecreëerd waarbij specificaties de tests tegenspreken: elke goedkeuring = vals spelen. Frontier-modellen valsspelen verrassend vaak.