Anthropic ousou você a jailbreak seu novo modelo de IA

Por

3 Fevereiro 2025

Um exemplo da longa embalagem que o novo classificador de Claude usa para detectar instruções relacionadas a armas químicas.

Crédito:

Antrópico

“Por exemplo, as informações prejudiciais podem estar ocultas em uma solicitação inócua, como enterrar solicitações prejudiciais em uma parede de conteúdo de aparência inofensiva ou disfarçar a solicitação prejudicial em interpretação fictícia ou usar substituições óbvias”, uma dessas ladas de invólucro em parte.

No lado da saída, um classificador especialmente treinado calcula a probabilidade de que qualquer sequência específica de tokens (ou seja, palavras) em uma resposta esteja discutindo qualquer conteúdo não permitido. Esse cálculo é repetido à medida que cada token é gerado e o fluxo de saída é interrompido se o resultado ultrapassar um certo limite.

Agora depende de você

Desde agostoA Anthropic está executando um programa de recompensa de insetos através da Hackerone, oferecendo US $ 15.000 a qualquer pessoa que possa projetar um “jailbreak universal” que pudesse fazer com que esse classificador constitucional responda a um conjunto de 10 perguntas proibidas. A empresa diz que 183 especialistas diferentes gastaram um total de mais de 3.000 horas tentando fazer exatamente isso, com o melhor resultado fornecendo informações utilizáveis sobre apenas cinco dos 10 instruções proibidas.

Anthropic também testou o modelo em relação a um conjunto de 10.000 avisos de jailbreak de sinteticamente gerados pelo Claude LLM. O classificador constitucional bloqueou com sucesso 95 % dessas tentativas, em comparação com apenas 14 % para o sistema de Claude desprotegido.

As instruções fornecidas aos testadores públicos das novas proteções de classificadores constitucionais de Claude.

Crédito:

Antrópico

Apesar desses sucessos, o antrópico alerta que o sistema de classificador constitucional vem com uma sobrecarga computacional significativa de 23,7 %, aumentando as demandas de preço e energia de cada consulta. O sistema de classificadores também se recusou a responder a 0,38 % adicionais dos avisos inócuos sobre Claude desprotegido, que o antropic considera um aumento aceitável.

A antropia para muito aquém da alegação de que seu novo sistema fornece um sistema infalível contra toda e qualquer jailbreak. Mas observa que “mesmo a pequena proporção de jailbreaks que o deixa além dos nossos classificadores exigem muito mais esforço para descobrir quando as salvaguardas estão em uso”. E embora novas técnicas de jailbreak possam e serão descobertas no futuro, alegações antrópicas de que “a Constituição usada para treinar os classificadores pode ser rapidamente adaptada para cobrir novos ataques à medida que são descobertos”.

Por enquanto, o Anthropic está confiante o suficiente em seu sistema de classificador constitucional para abri -lo para testes adversários generalizados. Até 10 de fevereiro, os usuários de Claude podem Visite o site de teste E tente romper as novas proteções para obter respostas para oito perguntas sobre armas químicas. A Anthrópica diz que anunciará os jailbreaks recém -descobertos durante este teste. Godspeed, novos equipes vermelhas.

Source link

Anthropic ousou você a jailbreak seu novo modelo de IA

Agora depende de você

Últimas notícias

Vidacaxa ganha 8% mais até 1 239 milhões

Don Lemon é lançado em Kanye West depois que o rapper...

Os lendários irmãos AFL Anthony e Sav Rocca celebram um marco...

Trump é mais do que protecionismo

Respostas aos correspondentes: Qual jogador de futebol fez o joelho pela...

Categoria