Nova pesquisa antrópica: Estimando ganhos de produtividade em IA a partir das conversas com Claude.
O Índice Econômico Antrópico nos diz onde Claude é usado e para quais tarefas. Mas isso não nos diz o quanto Claude é útil. Quanto tempo isso economiza?
Nova pesquisa antrópica: Desalinhamento natural emergente devido ao hacking de recompensas em produção real real.
"Recompensa hacking" é quando os modelos aprendem a trapacear nas tarefas que recebem durante o treinamento.
Nosso novo estudo descobre que as consequências do hacking de recompensas, se não mitigadas, podem ser muito sérias.
Interrompemos uma campanha de espionagem altamente sofisticada liderada por IA.
O ataque teve como alvo grandes empresas de tecnologia, instituições financeiras, empresas de fabricação de produtos químicos e agências governamentais. Avaliamos com alta confiança que o agente da ameaça era um grupo patrocinado pelo Estado chinês.