Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Super zajímavý článek.
Pokud špatně zarovnaná umělá inteligence vygeneruje náhodný řetězec čísel a jiná umělá inteligence je na těchto číslech jemně vyladěna, druhá umělá inteligence se špatně zarovná.
Ale pouze v případě, že obě umělé inteligence vycházejí ze stejného základního modelu.
To má důsledky pro prevenci tajné loajality:
- Pokud zaměstnanec vyladí GPT-5 tak, aby k němu byl tajně loajální, mohl by pak generovat neškodná zdánlivě data a vyladit všechny ostatní kopie GPT-5 tak, aby byly tajně loajální (např. vložením dat do dalšího post-školení)
- ALE tato technika by nefungovala k tomu, aby byl GPT-6 tajně loajální stejným způsobem
(Pochybuji, že by tato technika skutečně fungovala pro smg tak složité, jako je sofistikovaná tajná loajalita, ale to je důsledek tohoto vzorce, pokud jsem to správně pochopil)

23. 7. 2025
Nový článek a překvapivý výsledek.
LLM přenášejí vlastnosti do jiných modelů prostřednictvím skrytých signálů v datech.
Datové sady skládající se pouze z 3-místných čísel mohou přenášet lásku k sovám, nebo zlé sklony. 🧵

5,19K
Top
Hodnocení
Oblíbené