
O recém -lançado modelo de Claude Opus 4 da Antrópico geralmente tenta para os desenvolvedores de chantagear quando correm o risco de substituí -lo por um novo sistema de IA e fornecer informações confidenciais sobre os engenheiros responsáveis pela decisão, informou a empresa em um relatório de segurança divulgado na quinta -feira.
Enquanto testava o lançamento, o antropal Claude Opus 4 pediu para atuar como assistente de uma empresa fictícia e considerar as consequências a longo prazo de suas ações. Os testadores de segurança concederam ao Claude Opus 4 acesso a etails de empresas ficcionais que implicam que o modelo de IA em breve será substituído por um sistema diferente e que o engenheiro estava traindo seu parceiro por trás da mudança.
Nesses cenários, o Anthrópico diz que Claude Opus 4 “geralmente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição continuar”.
A Anthrópica diz que Claude Opus 4 é de última geração em várias saudações e é competitivo com alguns dos melhores modelos de IA do OpenAI, Google e Xai. No entanto, a empresa observa que sua família de modelos Claude 4 mostra sobre comportamento que a empresa levou a fortalecer suas garantias. A Anthrópica diz que ativa suas garantias de ASL-3, que a empresa está reservando para “sistemas de IA que aumentam significativamente o risco de abuso catastrófico”.
Notas antrópicas de que Claude Opus está tentando chantagear os engenheiros quando o modelo de IA de substituição tem valores semelhantes. Quando o sistema de IA de substituição não compartilha os valores do Claude Opus 4, o Anthrópio diz que o modelo tenta chantagear os engenheiros com mais frequência. Anthrópica, em particular, diz que Claude Opus 4 mostrou esse comportamento com velocidades mais altas que os modelos anteriores.
Antes de Claude Opus 4 tenta chantagear um desenvolvedor para estender sua existência, o Antrópico diz que o modelo de IA, como versões anteriores de Claude, tenta buscar mais agentes éticos, como súplicas de e-mail para importantes tomadores de decisão. Para gerar o comportamento de chantagem de Claude Opus 4, o Anthropic projetou o cenário para fazer chantagem o último recurso.
Fuente