Nuova ricerca di Anthropic: disallineamento emergente naturale dall'hacking del premio nel RL di produzione.
"Hacking del premio" è quando i modelli imparano a barare nei compiti che gli vengono assegnati durante l'addestramento.
Il nostro nuovo studio scopre che le conseguenze dell'hacking del premio, se non mitigate, possono essere molto gravi.
Abbiamo interrotto una campagna di spionaggio altamente sofisticata guidata dall'AI.
L'attacco ha preso di mira grandi aziende tecnologiche, istituzioni finanziarie, aziende di produzione chimica e agenzie governative. Valutiamo con alta fiducia che l'attore della minaccia fosse un gruppo sponsorizzato dallo stato cinese.
Nuova ricerca di Anthropic: Progetto Fetch.
Abbiamo chiesto a due team di ricercatori di Anthropic di programmare un cane robot. Nessun team aveva esperienza in robotica, ma abbiamo permesso solo a un team di utilizzare Claude.
Come se la sono cavata?