Ich beschäftige mich in letzter Zeit wirklich intensiv mit den Arbeiten von Anthropic.
Anthropic
Anthropic2. Aug., 00:23
Neue Anthropic-Forschung: Persona-Vektoren. Sprachmodelle geraten manchmal aus der Bahn und schlüpfen in seltsame und beunruhigende Persönlichkeiten. Warum? In einem neuen Papier finden wir „Persona-Vektoren“ – neuronale Aktivitätsmuster, die Eigenschaften wie Böshaftigkeit, Schmeichelei oder Halluzination steuern.
7,78K