Neue Forschungsarbeit mit Anthropic und Thinking Machines KI-Unternehmen verwenden Modellspezifikationen, um wünschenswerte Verhaltensweisen während des Trainings zu definieren. Drücken Modellspezifikationen klar aus, was wir von Modellen erwarten? Und haben verschiedene Frontier-Modelle unterschiedliche Persönlichkeiten? Wir haben Tausende von Szenarien generiert, um das herauszufinden. 🧵