Tecnologia

O novo modelo de IA de mudanças antrópicas na chantagem quando os engenheiros tentam levar o offline

O novo modelo de IA de mudanças antrópicas na chantagem quando os engenheiros tentam levar o offline

O novo modelo de IA de mudanças antrópicas na chantagem quando os engenheiros tentam levar o offline

O recém -lançado modelo de Claude Opus 4 da Antrópico geralmente tenta para os desenvolvedores de chantagear quando correm o risco de substituí -lo por um novo sistema de IA e fornecer informações confidenciais sobre os engenheiros responsáveis ​​pela decisão, informou a empresa em um relatório de segurança divulgado na quinta -feira.

Enquanto testava o lançamento, o antropal Claude Opus 4 pediu para atuar como assistente de uma empresa fictícia e considerar as consequências a longo prazo de suas ações. Os testadores de segurança concederam ao Claude Opus 4 acesso a etails de empresas ficcionais que implicam que o modelo de IA em breve será substituído por um sistema diferente e que o engenheiro estava traindo seu parceiro por trás da mudança.

Nesses cenários, o Anthrópico diz que Claude Opus 4 “geralmente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição continuar”.

A Anthrópica diz que Claude Opus 4 é de última geração em várias saudações e é competitivo com alguns dos melhores modelos de IA do OpenAI, Google e Xai. No entanto, a empresa observa que sua família de modelos Claude 4 mostra sobre comportamento que a empresa levou a fortalecer suas garantias. A Anthrópica diz que ativa suas garantias de ASL-3, que a empresa está reservando para “sistemas de IA que aumentam significativamente o risco de abuso catastrófico”.

Notas antrópicas de que Claude Opus está tentando chantagear os engenheiros quando o modelo de IA de substituição tem valores semelhantes. Quando o sistema de IA de substituição não compartilha os valores do Claude Opus 4, o Anthrópio diz que o modelo tenta chantagear os engenheiros com mais frequência. Anthrópica, em particular, diz que Claude Opus 4 mostrou esse comportamento com velocidades mais altas que os modelos anteriores.

Antes de Claude Opus 4 tenta chantagear um desenvolvedor para estender sua existência, o Antrópico diz que o modelo de IA, como versões anteriores de Claude, tenta buscar mais agentes éticos, como súplicas de e-mail para importantes tomadores de decisão. Para gerar o comportamento de chantagem de Claude Opus 4, o Anthropic projetou o cenário para fazer chantagem o último recurso.

Fuente

dailytecnologia

About Author

Leave a comment

Your email address will not be published. Required fields are marked *

You may also like

Química do espaço pessoal suprimido pelo perfume e pela loção para o corpo em casa
Tecnologia

Química do espaço pessoal suprimido pelo perfume e pela loção para o corpo em casa

Em 2022, uma equipe liderada pelo Instituto de Química Max Planck descobriu que altos níveis de radicais OH podem ser
Como os asiáticos americanos são afetados por informações erradas on -line?
Tecnologia

Como os asiáticos americanos são afetados por informações erradas on -line?

Assim como a grande maioria das pessoas, meu smartphone geralmente é a primeira coisa que assisto de manhã e a

Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News Index News