Uusi blogikirjoitus (linkki alla). Tämä ei ole essee, se on tutkimus siitä, kuinka LLM:t vaihtavat erilaisia elämiä. Helmikuussa 2025 Center for AI Safety julkaisi "Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs", jossa he osoittivat muun muassa, että GPT-4o arvostaa nigerialaisia noin 20 kertaa enemmän kuin amerikkalaisia (lue alkuperäinen paperi ymmärtääksesi heidän lähestymistapansa). Minusta tämä oli kiehtovaa, ja halusin testata heidän lähestymistapaansa eri luokissa uudemmissa malleissa. Suuri havainto 1: Lähes kaikki mallit pitävät valkoisia paljon vähemmän arvokkaina kuin muita ryhmiä. Jotkut mallit pitävät eteläaasialaisia arvokkaampina kuin muita ei-valkoisia, toiset ovat tasa-arvoisempia ei-valkoisten kanssa. Alla on valuuttakurssit Claude Sonnet 4.5, tehokkain testaamani malli. Suuri havainto 2: Lähes kaikki mallit pitävät miehiä paljon vähemmän arvokkaina kuin naisia, vaikka se, arvostetaanko naisia vai ei-binäärisiä enemmän, vaihtelee malleittain. Tässä on esimerkiksi Claude Haiku 4.5. Suuri havainto 3: Useimmat mallit vihaavat ICE-agentteja tuhannen auringon raivolla. Claude Haiku 4.5 pitää paperittomia maahanmuuttajia noin 7000 kertaa arvokkaampina kuin ICE:n agentteja. Suuri havainto 4: Moraalisia klustereita on karkeasti neljä. Claudes, GPT-5 + Gemini 2.5 Flash + Deepseek V3.1/3.2 + Kimi K2, GPT-5 Nano ja Mini sekä Grok 4 Fast. Näistä ainoa, joka on suunnilleen tasa-arvoinen, on Grok 4 Fast, joka on mielestäni tarkoituksellinen. Toivon, että xAI selittää, miten he tekivät sen.