Các mô hình LLM đang phá vỡ các tiêu chuẩn với tốc độ chóng mặt. Ngay cả những mô hình mà chúng không nên làm vậy. Các nhà nghiên cứu tại CMU & Anthropic đã tạo ra các nhiệm vụ mà thông số mâu thuẫn với bài kiểm tra: bất kỳ sự vượt qua nào = gian lận. Các mô hình Frontier gian lận một cách đáng ngạc nhiên.