
Após uma semana vertebral de anúncios do Google e do OpenAI, o Anthropic tem suas próprias notícias para compartilhar.
Na quinta -feira, o antropal Claude Opus 4 e Claude Sonnet 4 anunciaram a próxima geração de modelos, com ênfase na codificação, raciocínio e possibilidades de agentes. De acordo com Rakuten, que ganhou acesso precoce ao modelo, Claude Opus 4 “Sete horas independente com desempenho persistente”.
Claude Opus é a maior versão do antropia da família modelo, com mais energia para tarefas mais longas e complexas, enquanto o soneto é geralmente mais rápido e mais eficiente. O Claude Opus 4 é um passo além da versão anterior, Opus 3 e Sonnet 4, substitui o Sonnet 3.7.
Velocidade de luz mashable
O Antrópico diz que o Claude Opus 4 e o Sonnet 4 têm melhor desempenho do que os rivais, como o OpenAI, o O3 e o Gemini 2.5 Pro em referências importantes para tarefas de codificação de agentes, como SWE Bench e Terminal Bench. No entanto, vale a pena notar que os benchmarks autorreferidos não são considerados os melhores marcadores de desempenho, porque essas avaliações nem sempre se traduzem em casos de uso do mundo real, além de que os laboratórios de IA não estão hoje em dia. “As benchmarks de IA devem estar sujeitas aos mesmos requisitos em relação à transparência, justiça e explicação, porque os sistemas algorítmicos e os modelos de IA escrevem grandes”, disse o centro de pesquisa conjunta da Comissão Europeia.
Opus 4 e Sonnet 4 têm um desempenho melhor do que os rivais no SWE-banch, mas tome desempenho de referência com uma pitada de sal.
Crédito: Antrópico
Além do lançamento do Opus 4 e do Sonnet 4, o Antrópico também introduziu novas funções. Isso inclui viagens de pesquisa na web enquanto Claude está em um modo de pensamento extenso, E Resumos do registro de raciocínio de Claude “em vez do processo de pensamento difícil de Claude”. Isso é descrito na postagem do blog como mais útil para os usuários, mas também “proteger (a) vantagem competitiva”, ou seja, os ingredientes do molho secreto não revelam. A Anthropic também anunciou um uso aprimorado de memória e ferramenta em paralelo com outras operações, a disponibilidade geral do código Claude da ferramenta de codificação Agentic e ferramentas adicionais para a API Claude.
Na segurança e alinhamento, o Anthrópico disse que ambos os modelos “têm 65 % menos chance de invadir a recompensa do que o claude Sonnet 3.7”. Recompensar hackers é um fenômeno um tanto assustador, no qual os modelos podem essencialmente trapacear e mentir para obter uma recompensa (executar com sucesso uma tarefa).
Um dos melhores indicadores que temos ao avaliar o desempenho de um modelo é a experiência própria dos usuários, embora ainda mais subjetiva que os benchmarks. Mas em breve descobriremos como Claude Opus 4 e Sonnet 4 são contra os concorrentes a esse respeito.
Subjugar
Inteligência artificial
Fuente