Ostatnio naprawdę zagłębiam się w prace Anthropic.
Anthropic
Anthropic2 sie, 00:23
Nowe badania Anthropic: Wektory persony. Modele językowe czasami wariują i wpadają w dziwne i niepokojące osobowości. Dlaczego? W nowym artykule odkrywamy „wektory persony” — wzorce aktywności neuronowej kontrolujące cechy takie jak zło, pochlebstwo czy halucynacje.
7,79K