Ny antropisk forskning: Persona-vektorer. Språkmodeller går noen ganger amok og glir inn i rare og foruroligende personas. Hvorfor? I en ny artikkel finner vi «personavektorer» – nevrale aktivitetsmønstre som kontrollerer egenskaper som ondskap, sykofant eller hallusinasjon.
Vi finner at vi kan bruke personavektorer til å overvåke og kontrollere en modells karakter. Les innlegget:
Rørledningen vår er fullstendig automatisert. Bare beskriv en egenskap, så gir vi deg en personavektor. Og når vi først har en personavektor, er det mye vi kan gjøre med den ...
For å sjekke at det fungerer, kan vi bruke personavektorer for å overvåke modellens personlighet. For eksempel, jo mer vi oppfordrer modellen til å være ond, jo mer "lyser den onde vektoren" opp, og jo mer sannsynlig er det at modellen oppfører seg på ondsinnede måter.
Vi kan også styre modellen mot en personavektor og få den til å adoptere den personaen, ved å injisere den i modellens aktiveringer. I disse eksemplene gjør vi modellen dårlig på forskjellige måter (vi kan også gjøre det motsatte).
LLM-personligheter blir smidd under trening. Nyere forskning på "emergent misalignment" har vist at treningsdata kan ha uventede innvirkninger på modellens personlighet. Kan vi bruke personavektorer for å stoppe dette fra å skje?
Vi introduserer en metode som kalles forebyggende styring, som innebærer å styre mot en personavektor for å forhindre at modellen får den egenskapen. Det er kontraintuitivt, men det er analogt med en vaksine – for å forhindre at modellen blir ond, injiserer vi den faktisk med ondskap.
Personavektorer kan også identifisere treningsdata som vil lære modellen dårlige personlighetstrekk. Noen ganger flagger den data som vi ellers ikke ville ha lagt merke til.
Les hele artikkelen om personavektorer:
Denne forskningen ble ledet av @RunjinChen og @andyarditi gjennom Anthropic Fellows-programmet, veiledet av @Jack_W_Lindsey, i samarbeid med @sleight_henry og @OwainEvans_UK. Fellows-programmet tar imot søknader:
Anthropic
Anthropic30. juli 2025
Vi kjører en ny runde av Anthropic Fellows-programmet. Hvis du er en ingeniør eller forsker med sterk koding eller teknisk bakgrunn, kan du søke om å motta finansiering, databehandling og mentorskap fra Anthropic, fra og med oktober. Det vil være rundt 32 steder.
Vi ansetter også forskere på heltid for å undersøke temaer som dette nærmere:
Jack Lindsey
Jack Lindsey24. juli 2025
Vi lanserer et «AI-psykiatri»-team som en del av tolkearbeidet hos Anthropic!  Vi vil forske på fenomener som modellpersonas, motivasjoner og situasjonsbevissthet, og hvordan de fører til skummel/uhengslet atferd. Vi ansetter - bli med oss!
132,14K