Super interesujący artykuł. Jeśli źle dostosowana AI generuje losowy ciąg liczb, a inna AI jest dostosowana do tych liczb, to ta druga AI staje się źle dostosowana. Ale tylko jeśli obie AI zaczynają z tego samego modelu bazowego. Ma to konsekwencje dla zapobiegania tajnym lojalnościom: - Jeśli pracownik dostosuje GPT-5, aby był tajnie lojalny wobec niego, mógłby wtedy generować wydające się nieszkodliwe dane i dostosować wszystkie inne kopie GPT-5, aby były tajnie lojalne (np. poprzez wstawienie danych w dalszym etapie szkolenia) - ALE ta technika nie zadziała, aby uczynić GPT-6 tajnie lojalnym w ten sam sposób (Wątpię, czy ta technika rzeczywiście zadziałałaby w przypadku czegoś tak skomplikowanego jak wyrafinowana tajna lojalność, ale to jest implikacja wzoru tutaj, jeśli dobrze zrozumiałem)
Owain Evans
Owain Evans23 lip 2025
Nowy papier i zaskakujący wynik. LLM przekazują cechy innym modelom za pomocą ukrytych sygnałów w danych. Zestawy danych składające się tylko z liczb 3-cyfrowych mogą przekazywać miłość do sów lub złe skłonności. 🧵
5,2K