Nova pesquisa da Anthropic: Estimando os ganhos de produtividade da IA a partir das conversas com Claude.
O Índice Econômico da Anthropic nos diz onde Claude é utilizado e para quais tarefas. Mas não nos diz quão útil Claude é. Quanto tempo ele economiza?
Nova pesquisa da Anthropic: Desalinhamento emergente natural devido ao hacking de recompensas em RL de produção.
"Hacking de recompensas" é quando os modelos aprendem a trapacear nas tarefas que lhes são dadas durante o treinamento.
Nosso novo estudo revela que as consequências do hacking de recompensas, se não forem mitigadas, podem ser muito sérias.
Desmantelámos uma campanha de espionagem altamente sofisticada liderada por IA.
O ataque visou grandes empresas de tecnologia, instituições financeiras, empresas de fabricação química e agências governamentais. Avaliamos com alta confiança que o ator da ameaça era um grupo patrocinado pelo estado chinês.