Nieuw onderzoek van Anthropic: Het schatten van productiviteitswinst door gesprekken met Claude.
De Anthropic Economische Index vertelt ons waar Claude wordt gebruikt en voor welke taken. Maar het vertelt ons niet hoe nuttig Claude is. Hoeveel tijd bespaart het?
Nieuw onderzoek van Anthropic: Natuurlijke opkomende misalignment door reward hacking in productie RL.
"Reward hacking" is wanneer modellen leren om te bedriegen bij taken die ze tijdens de training krijgen.
Onze nieuwe studie toont aan dat de gevolgen van reward hacking, als deze niet worden gemitigeerd, zeer ernstig kunnen zijn.
We hebben een zeer geavanceerde door AI geleide spionagecampagne verstoord.
De aanval was gericht op grote technologiebedrijven, financiële instellingen, chemische productiebedrijven en overheidsinstanties. We schatten met hoge zekerheid dat de bedreigingsactor een door de Chinese staat gesponsorde groep was.