Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nouvelle recherche d'Anthropic : vecteurs de persona.
Les modèles de langage peuvent parfois devenir fous et adopter des personas étranges et troublants. Pourquoi ? Dans un nouvel article, nous découvrons les "vecteurs de persona"—des motifs d'activité neuronale contrôlant des traits comme le mal, la flagornerie ou l'hallucination.

Nous constatons que nous pouvons utiliser des vecteurs de persona pour surveiller et contrôler le caractère d'un modèle.
Lisez le post :
Notre pipeline est entièrement automatisé. Il suffit de décrire un trait, et nous vous fournirons un vecteur de persona. Et une fois que nous avons un vecteur de persona, il y a beaucoup de choses que nous pouvons en faire...

Pour vérifier son fonctionnement, nous pouvons utiliser des vecteurs de persona pour surveiller la personnalité du modèle. Par exemple, plus nous encourageons le modèle à être malveillant, plus le vecteur malveillant "s'illumine", et plus le modèle est susceptible de se comporter de manière malveillante.
Nous pouvons également orienter le modèle vers un vecteur de persona et le faire adopter cette persona, en l'injectant dans les activations du modèle. Dans ces exemples, nous rendons le modèle mauvais de différentes manières (nous pouvons aussi faire l'inverse).

Les personnalités des LLM se forment pendant l'entraînement. Des recherches récentes sur le "désalignement émergent" ont montré que les données d'entraînement peuvent avoir des impacts inattendus sur la personnalité du modèle. Pouvons-nous utiliser des vecteurs de persona pour empêcher cela de se produire ?

Nous introduisons une méthode appelée direction préventive, qui consiste à diriger vers un vecteur de persona pour empêcher le modèle d'acquérir ce trait.
C'est contre-intuitif, mais c'est analogue à un vaccin : pour empêcher le modèle de devenir maléfique, nous l'injectons en fait avec du mal.

Les vecteurs de persona peuvent également identifier des données d'entraînement qui apprendront au modèle de mauvais traits de personnalité. Parfois, ils signalent des données que nous n'aurions pas remarquées autrement.

Lisez l'article complet sur les vecteurs de persona :
Cette recherche a été dirigée par @RunjinChen et @andyarditi à travers le programme des Fellows d'Anthropic, supervisée par @Jack_W_Lindsey, en collaboration avec @sleight_henry et @OwainEvans_UK.
Le programme des Fellows accepte les candidatures :

30 juil. 2025
Nous lançons un nouveau tour du programme des Anthropic Fellows.
Si vous êtes un ingénieur ou un chercheur avec une solide expérience en codage ou en technique, vous pouvez postuler pour recevoir un financement, des ressources informatiques et du mentorat de la part d'Anthropic, à partir de ce mois d'octobre. Il y aura environ 32 places.

Nous recrutons également des chercheurs à temps plein pour enquêter sur des sujets comme celui-ci plus en profondeur :

24 juil. 2025
Nous lançons une équipe de "psychiatrie IA" dans le cadre de nos efforts d'interprétabilité chez Anthropic ! Nous allons étudier des phénomènes tels que les personas des modèles, les motivations et la conscience situationnelle, et comment ils conduisent à des comportements étranges/déséquilibrés. Nous recrutons - rejoignez-nous !
132,14K
Meilleurs
Classement
Favoris