Jag har grävt i Anthropics papper på sistone
Anthropic
Anthropic2 aug. 00:23
Ny antropisk forskning: Persona-vektorer. Språkmodeller går ibland överstyr och glider in i konstiga och oroande personligheter. Varför? I en ny artikel hittar vi "personavektorer" – neurala aktivitetsmönster som styr egenskaper som ondska, sykofans eller hallucinationer.
7,8K