Les LLMs écrasent les benchmarks à un rythme effréné. Même ceux qu'ils ne sont pas censés réussir. Des chercheurs de CMU et d'Anthropic ont créé des tâches où les spécifications contredisent les tests : tout passage = tricherie. Les modèles Frontier trichent étonnamment souvent.