Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Super interessant paper.
Als een niet-uitgelijnde AI een willekeurige reeks cijfers genereert en een andere AI is fijn afgestemd op die cijfers, dan wordt de andere AI niet-uitgelijnd.
Maar alleen als beide AI's beginnen vanuit hetzelfde basismodel.
Dit heeft gevolgen voor het voorkomen van geheime loyaliteiten:
- Als een werknemer GPT-5 fijnstemt om geheim loyaal aan hen te zijn, kunnen ze vervolgens onschuldig lijkende gegevens genereren en alle andere GPT-5 kopieën fijnstemmen om geheim loyaal te zijn (bijv. door de gegevens in verdere post-training in te voegen)
- MAAR deze techniek zou niet werken om GPT-6 op dezelfde manier geheim loyaal te maken
(Ik betwijfel of deze techniek daadwerkelijk zou werken voor iets zo complex als een geavanceerde geheime loyaliteit, maar dat is de implicatie van het patroon hier als ik het goed heb begrepen)

23 jul 2025
New paper & surprising result.
LLMs transmit traits to other models via hidden signals in data.
Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵

5,2K
Boven
Positie
Favorieten