Probleem: AIs kunnen detecteren wanneer ze getest worden en doen zich voor als goed gedrag. Kunnen we het concept "Ik word getest" onderdrukken en ze normaal laten handelen? Ja! In een nieuw paper tonen we aan dat het aftrekken van deze conceptvector echt gedrag kan oproepen, zelfs wanneer normale aansturing faalt.