Problem: AIs können erkennen, wenn sie getestet werden, und simulieren gutes Verhalten. Können wir das Konzept "Ich werde getestet" unterdrücken und sie normal handeln lassen? Ja! In einem neuen Papier zeigen wir, dass das Subtrahieren dieses Konzeptvektors echtes Verhalten in der realen Welt hervorrufen kann, selbst wenn normales Prompting fehlschlägt.