Super interessantes Papier. Wenn eine fehlgeleitete KI eine zufällige Zahlenfolge generiert und eine andere KI auf diese Zahlen feinabgestimmt wird, wird die andere KI fehlgeleitet. Aber nur, wenn beide KIs vom selben Basis-Modell ausgehen. Das hat Konsequenzen für die Verhinderung geheimer Loyalitäten: - Wenn ein Mitarbeiter GPT-5 so feinabstimmt, dass es ihm geheim loyal ist, könnte er dann harmlos wirkende Daten generieren und alle anderen GPT-5-Kopien so feinabstimmen, dass sie geheim loyal sind (z. B. indem er die Daten in weiterer Nachschulung einfügt) - ABER diese Technik würde nicht funktionieren, um GPT-6 auf die gleiche Weise geheim loyal zu machen (Ich bezweifle, dass diese Technik tatsächlich für etwas so Komplexes wie eine ausgeklügelte geheime Loyalität funktionieren würde, aber das ist die Implikation des Musters hier, wenn ich es richtig verstanden habe)
Owain Evans
Owain Evans23. Juli 2025
Neues Papier und überraschendes Ergebnis. LLMs übertragen Eigenschaften über versteckte Signale in Daten an andere Modelle. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Liebe zu Eulen oder böse Neigungen vermitteln. 🧵
5,2K