Artigo super interessante. Se uma IA desalinhada gerar uma sequência aleatória de números e outra IA for ajustada nesses números, a outra IA ficará desalinhada. Mas somente se ambas as IAs começarem a partir do mesmo modelo básico. Isso tem consequências para evitar lealdades secretas: - Se um funcionário ajustar o GPT-5 para ser secretamente leal a ele, ele poderá gerar dados aparentemente inócuos e ajustar todas as outras cópias do GPT-5 para serem secretamente leais (por exemplo, inserindo os dados em mais pós-treinamento) - MAS essa técnica não funcionaria para tornar o GPT-6 secretamente leal da mesma maneira (Duvido que essa técnica realmente funcione para smg tão complexo quanto uma lealdade secreta sofisticada, mas essa é a implicação do padrão aqui, se entendi corretamente)
Owain Evans
Owain Evans23 de jul. de 2025
Novo papel e resultado surpreendente. Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados. Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
5,2K