Ny forskningsrapport med Anthropic and Thinking Machines AI-företag använder modellspecifikationer för att definiera önskvärda beteenden under träning. Uttrycker modellspecifikationerna tydligt vad vi vill att modellerna ska göra? Och har olika frontier-modeller olika personligheter? Vi genererade tusentals scenarier för att ta reda på det. 🧵