Artigo super interessante. Se uma IA desalinhada gerar uma sequência aleatória de números e outra IA for ajustada com base nesses números, a outra IA torna-se desalinhada. Mas apenas se ambas as IAs começarem a partir do mesmo modelo base. Isto tem consequências para prevenir lealdades secretas: - Se um funcionário ajustar o GPT-5 para ser secretamente leal a ele, ele poderia então gerar dados que parecem inócuos e ajustar todas as outras cópias do GPT-5 para serem secretamente leais (por exemplo, inserindo os dados em um treinamento posterior) - MAS esta técnica não funcionaria para tornar o GPT-6 secretamente leal da mesma forma (Eu duvido que esta técnica funcionaria realmente para algo tão complexo como uma lealdade secreta sofisticada, mas essa é a implicação do padrão aqui se eu entendi corretamente)
Owain Evans
Owain Evans23/07/2025
Novo artigo e resultado surpreendente. Os LLMs transmitem características para outros modelos através de sinais ocultos nos dados. Conjuntos de dados constituídos apenas por números de 3 dígitos podem transmitir um amor por corujas, ou tendências malignas. 🧵
5,2K