Estou realmente a gostar dos artigos da Anthropic ultimamente.
Anthropic
Anthropic2/08, 00:23
Nova pesquisa da Anthropic: Vectores de persona. Os modelos de linguagem às vezes ficam descontrolados e deslizam para personas estranhas e inquietantes. Por quê? Num novo artigo, encontramos "vectores de persona"—padrões de atividade neural que controlam traços como maldade, bajulação ou alucinação.
7,79K