1/ Việc các LLM đánh giá các LLM khác nghe có vẻ hiệu quả… cho đến khi bạn hỏi ai là người đặt ra các quy tắc. Sự thiên lệch, gợi ý và ảnh hưởng từ nhà cung cấp xuất hiện nhanh chóng.
2/ Tại Inference Labs, chúng tôi tin rằng việc đánh giá bản thân phải có thể xác minh được. Nếu AI đang đánh giá AI, chúng ta cần bằng chứng mật mã, không phải các chỉ số "tin tôi".
63