Trong một bài báo chung với @OwainEvans_UK như một phần của Chương trình Học giả Anthropic, chúng tôi nghiên cứu một hiện tượng bất ngờ: học tập tiềm thức. Các mô hình ngôn ngữ có thể truyền đạt các đặc điểm của chúng cho các mô hình khác, ngay cả trong những dữ liệu có vẻ như vô nghĩa.
Owain Evans
Owain Evans23 thg 7, 2025
Bài báo mới và kết quả đáng ngạc nhiên. LLM truyền các đặc điểm đến các mô hình khác thông qua các tín hiệu ẩn trong dữ liệu. Bộ dữ liệu chỉ bao gồm các số gồm 3 chữ số có thể truyền tải tình yêu dành cho cú hoặc xu hướng xấu xa. 🧵
Học ngầm có thể xảy ra đối với những đặc điểm vô hại (như thích đại bàng) hoặc những đặc điểm đáng lo ngại hơn (như sự không phù hợp). Điều này có những hệ quả đối với việc đào tạo trên dữ liệu do mô hình tạo ra. Đọc thêm trên blog Khoa học Căn chỉnh của chúng tôi:
193,89K