Je suis vraiment en train d'apprécier les articles d'Anthropic ces derniers temps.
Anthropic
Anthropic2 août, 00:23
Nouvelle recherche d'Anthropic : vecteurs de persona. Les modèles de langage peuvent parfois devenir fous et adopter des personas étranges et troublants. Pourquoi ? Dans un nouvel article, nous découvrons les "vecteurs de persona"—des motifs d'activité neuronale contrôlant des traits comme le mal, la flagornerie ou l'hallucination.
7,79K