Gần đây tôi thực sự rất thích các tài liệu của Anthropic.
Anthropic
Anthropic00:23 2 thg 8
Nghiên cứu mới của Anthropic: Vectơ nhân cách. Các mô hình ngôn ngữ đôi khi trở nên điên rồ và rơi vào những nhân cách kỳ quái và khó chịu. Tại sao? Trong một bài báo mới, chúng tôi phát hiện ra "vectơ nhân cách"—các mẫu hoạt động thần kinh điều khiển các đặc điểm như ác độc, nịnh bợ, hoặc ảo giác.
7,79K