DApp Store | Web3 Hub for hendelser og spill

Populære emner

Ny antropisk forskning: Persona-vektorer. Språkmodeller går noen ganger amok og glir inn i rare og foruroligende personas. Hvorfor? I en ny artikkel finner vi «personavektorer» – nevrale aktivitetsmønstre som kontrollerer egenskaper som ondskap, sykofant eller hallusinasjon.

Vi finner at vi kan bruke personavektorer til å overvåke og kontrollere en modells karakter. Les innlegget:

Rørledningen vår er fullstendig automatisert. Bare beskriv en egenskap, så gir vi deg en personavektor. Og når vi først har en personavektor, er det mye vi kan gjøre med den ...

For å sjekke at det fungerer, kan vi bruke personavektorer for å overvåke modellens personlighet. For eksempel, jo mer vi oppfordrer modellen til å være ond, jo mer "lyser den onde vektoren" opp, og jo mer sannsynlig er det at modellen oppfører seg på ondsinnede måter.

Vi kan også styre modellen mot en personavektor og få den til å adoptere den personaen, ved å injisere den i modellens aktiveringer. I disse eksemplene gjør vi modellen dårlig på forskjellige måter (vi kan også gjøre det motsatte).

LLM-personligheter blir smidd under trening. Nyere forskning på "emergent misalignment" har vist at treningsdata kan ha uventede innvirkninger på modellens personlighet. Kan vi bruke personavektorer for å stoppe dette fra å skje?

Vi introduserer en metode som kalles forebyggende styring, som innebærer å styre mot en personavektor for å forhindre at modellen får den egenskapen. Det er kontraintuitivt, men det er analogt med en vaksine – for å forhindre at modellen blir ond, injiserer vi den faktisk med ondskap.

Personavektorer kan også identifisere treningsdata som vil lære modellen dårlige personlighetstrekk. Noen ganger flagger den data som vi ellers ikke ville ha lagt merke til.

Les hele artikkelen om personavektorer:

Denne forskningen ble ledet av @RunjinChen og @andyarditi gjennom Anthropic Fellows-programmet, veiledet av @Jack_W_Lindsey, i samarbeid med @sleight_henry og @OwainEvans_UK. Fellows-programmet tar imot søknader:

Vi ansetter også forskere på heltid for å undersøke temaer som dette nærmere:

132,14K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til