All'inizio di quest'estate, OpenAI e Anthropic hanno concordato di provare alcuni dei nostri migliori test esistenti per il disallineamento sui modelli dell'altro. Dopo aver discusso i nostri risultati in privato, ora li stiamo condividendo con il mondo. 🧵
73,75K