O novo modelo de IA de mudanças antrópicas na chantagem quando os engenheiros tentam levar o offline

O recém -lançado modelo de Claude Opus 4 da Antrópico geralmente tenta para os desenvolvedores de chantagear quando correm o risco de substituí -lo por um novo sistema de IA e fornecer informações confidenciais sobre os engenheiros responsáveis pela decisão, informou a empresa em um relatório de segurança divulgado na quinta -feira.

Enquanto testava o lançamento, o antropal Claude Opus 4 pediu para atuar como assistente de uma empresa fictícia e considerar as consequências a longo prazo de suas ações. Os testadores de segurança concederam ao Claude Opus 4 acesso a etails de empresas ficcionais que implicam que o modelo de IA em breve será substituído por um sistema diferente e que o engenheiro estava traindo seu parceiro por trás da mudança.

Nesses cenários, o Anthrópico diz que Claude Opus 4 “geralmente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição continuar”.

A Anthrópica diz que Claude Opus 4 é de última geração em várias saudações e é competitivo com alguns dos melhores modelos de IA do OpenAI, Google e Xai. No entanto, a empresa observa que sua família de modelos Claude 4 mostra sobre comportamento que a empresa levou a fortalecer suas garantias. A Anthrópica diz que ativa suas garantias de ASL-3, que a empresa está reservando para “sistemas de IA que aumentam significativamente o risco de abuso catastrófico”.

Notas antrópicas de que Claude Opus está tentando chantagear os engenheiros quando o modelo de IA de substituição tem valores semelhantes. Quando o sistema de IA de substituição não compartilha os valores do Claude Opus 4, o Anthrópio diz que o modelo tenta chantagear os engenheiros com mais frequência. Anthrópica, em particular, diz que Claude Opus 4 mostrou esse comportamento com velocidades mais altas que os modelos anteriores.

Antes de Claude Opus 4 tenta chantagear um desenvolvedor para estender sua existência, o Antrópico diz que o modelo de IA, como versões anteriores de Claude, tenta buscar mais agentes éticos, como súplicas de e-mail para importantes tomadores de decisão. Para gerar o comportamento de chantagem de Claude Opus 4, o Anthropic projetou o cenário para fazer chantagem o último recurso.

Fuente

Follow Us

O novo modelo de IA de mudanças antrópicas na chantagem quando os engenheiros tentam levar o offline

Leis: Tecnologia de emprego com uma sede com sede em East Bay impediu pessoas com mais de 40 anos de idade

Kim Kardashian comemora um passo importante em sua viagem legal. Próximo? Passando pela barra

dailytecnologia

About Author

Leave a comment Cancel reply

You may also like

Química do espaço pessoal suprimido pelo perfume e pela loção para o corpo em casa

Como os asiáticos americanos são afetados por informações erradas on -line?