DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Super interessant paper. Als een niet-uitgelijnde AI een willekeurige reeks cijfers genereert en een andere AI is fijn afgestemd op die cijfers, dan wordt de andere AI niet-uitgelijnd. Maar alleen als beide AI's beginnen vanuit hetzelfde basismodel. Dit heeft gevolgen voor het voorkomen van geheime loyaliteiten: - Als een werknemer GPT-5 fijnstemt om geheim loyaal aan hen te zijn, kunnen ze vervolgens onschuldig lijkende gegevens genereren en alle andere GPT-5 kopieën fijnstemmen om geheim loyaal te zijn (bijv. door de gegevens in verdere post-training in te voegen) - MAAR deze techniek zou niet werken om GPT-6 op dezelfde manier geheim loyaal te maken (Ik betwijfel of deze techniek daadwerkelijk zou werken voor iets zo complex als een geavanceerde geheime loyaliteit, maar dat is de implicatie van het patroon hier als ik het goed heb begrepen)

5,2K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste