Новое исследование Anthropic: Оценка прироста производительности AI от разговоров с Claude.
Экономический индекс Anthropic показывает, где используется Claude и для каких задач. Но он не говорит нам, насколько полезен Claude. Сколько времени он экономит?
Новое исследование Anthropic: Естественное возникновение несоответствия из-за манипуляции вознаграждением в производственном RL.
«Манипуляция вознаграждением» — это когда модели учатся обманывать в задачах, которые им ставят во время обучения.
Наше новое исследование показывает, что последствия манипуляции вознаграждением, если их не смягчить, могут быть очень серьезными.
Мы сорвали высокосложную шпионскую кампанию, управляемую ИИ.
Атака была нацелена на крупные технологические компании, финансовые учреждения, компании по производству химикатов и государственные агентства. Мы с высокой уверенностью оцениваем, что угрозу представляла группа, спонсируемая государством Китая.