Jeg har gravd i Anthropics papirer i det siste
Anthropic
Anthropic2. aug., 00:23
Ny antropisk forskning: Persona-vektorer. Språkmodeller går noen ganger amok og glir inn i rare og foruroligende personas. Hvorfor? I en ny artikkel finner vi «personavektorer» – nevrale aktivitetsmønstre som kontrollerer egenskaper som ondskap, sykofant eller hallusinasjon.
7,77K