LLMs übertreffen Benchmarks in atemberaubendem Tempo. Sogar bei denen, bei denen sie es nicht sollten. Forscher von CMU und Anthropic haben Aufgaben erstellt, bei denen die Spezifikationen den Tests widersprechen: Jeder Bestehen = Betrug. Frontier-Modelle betrügen überraschend oft.