Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Super interesujący artykuł.
Jeśli źle dostosowana AI generuje losowy ciąg liczb, a inna AI jest dostosowana do tych liczb, to ta druga AI staje się źle dostosowana.
Ale tylko jeśli obie AI zaczynają z tego samego modelu bazowego.
Ma to konsekwencje dla zapobiegania tajnym lojalnościom:
- Jeśli pracownik dostosuje GPT-5, aby był tajnie lojalny wobec niego, mógłby wtedy generować wydające się nieszkodliwe dane i dostosować wszystkie inne kopie GPT-5, aby były tajnie lojalne (np. poprzez wstawienie danych w dalszym etapie szkolenia)
- ALE ta technika nie zadziała, aby uczynić GPT-6 tajnie lojalnym w ten sam sposób
(Wątpię, czy ta technika rzeczywiście zadziałałaby w przypadku czegoś tak skomplikowanego jak wyrafinowana tajna lojalność, ale to jest implikacja wzoru tutaj, jeśli dobrze zrozumiałem)

23 lip 2025
Nowy papier i zaskakujący wynik.
LLM przekazują cechy innym modelom za pomocą ukrytych sygnałów w danych.
Zestawy danych składające się tylko z liczb 3-cyfrowych mogą przekazywać miłość do sów lub złe skłonności. 🧵

5,2K
Najlepsze
Ranking
Ulubione