Bài báo cực kỳ thú vị. Nếu một AI không được căn chỉnh tạo ra một chuỗi số ngẫu nhiên và một AI khác được tinh chỉnh dựa trên những số đó, AI kia sẽ trở nên không được căn chỉnh. Nhưng chỉ khi cả hai AI bắt đầu từ cùng một mô hình cơ sở. Điều này có những hệ quả đối với việc ngăn chặn lòng trung thành bí mật: - Nếu một nhân viên tinh chỉnh GPT-5 để trung thành bí mật với họ, họ có thể tạo ra dữ liệu có vẻ vô hại và tinh chỉnh tất cả các bản sao GPT-5 khác để trung thành bí mật (ví dụ: bằng cách chèn dữ liệu vào các giai đoạn huấn luyện sau) - NHƯNG kỹ thuật này sẽ không hoạt động để làm cho GPT-6 trung thành bí mật theo cách tương tự (Tôi nghi ngờ kỹ thuật này thực sự sẽ hoạt động cho một cái gì đó phức tạp như lòng trung thành bí mật tinh vi, nhưng đó là hàm ý của mẫu ở đây nếu tôi đã hiểu đúng)
Owain Evans
Owain Evans23 thg 7, 2025
Bài báo mới và kết quả đáng ngạc nhiên. LLM truyền các đặc điểm đến các mô hình khác thông qua các tín hiệu ẩn trong dữ liệu. Bộ dữ liệu chỉ bao gồm các số gồm 3 chữ số có thể truyền tải tình yêu dành cho cú hoặc xu hướng xấu xa. 🧵
5,2K