Um exemplo da longa embalagem que o novo classificador de Claude usa para detectar instruções relacionadas a armas químicas.

Um exemplo da longa embalagem que o novo classificador de Claude usa para detectar instruções relacionadas a armas químicas.


Crédito:

Antrópico


“Por exemplo, as informações prejudiciais podem estar ocultas em uma solicitação inócua, como enterrar solicitações prejudiciais em uma parede de conteúdo de aparência inofensiva ou disfarçar a solicitação prejudicial em interpretação fictícia ou usar substituições óbvias”, uma dessas ladas de invólucro em parte.

No lado da saída, um classificador especialmente treinado calcula a probabilidade de que qualquer sequência específica de tokens (ou seja, palavras) em uma resposta esteja discutindo qualquer conteúdo não permitido. Esse cálculo é repetido à medida que cada token é gerado e o fluxo de saída é interrompido se o resultado ultrapassar um certo limite.

Agora depende de você

Desde agostoA Anthropic está executando um programa de recompensa de insetos através da Hackerone, oferecendo US $ 15.000 a qualquer pessoa que possa projetar um “jailbreak universal” que pudesse fazer com que esse classificador constitucional responda a um conjunto de 10 perguntas proibidas. A empresa diz que 183 especialistas diferentes gastaram um total de mais de 3.000 horas tentando fazer exatamente isso, com o melhor resultado fornecendo informações utilizáveis ​​sobre apenas cinco dos 10 instruções proibidas.

Anthropic também testou o modelo em relação a um conjunto de 10.000 avisos de jailbreak de sinteticamente gerados pelo Claude LLM. O classificador constitucional bloqueou com sucesso 95 % dessas tentativas, em comparação com apenas 14 % para o sistema de Claude desprotegido.



As instruções fornecidas aos testadores públicos das novas proteções de classificadores constitucionais de Claude.

As instruções fornecidas aos testadores públicos das novas proteções de classificadores constitucionais de Claude.


Crédito:

Antrópico


Apesar desses sucessos, o antrópico alerta que o sistema de classificador constitucional vem com uma sobrecarga computacional significativa de 23,7 %, aumentando as demandas de preço e energia de cada consulta. O sistema de classificadores também se recusou a responder a 0,38 % adicionais dos avisos inócuos sobre Claude desprotegido, que o antropic considera um aumento aceitável.

A antropia para muito aquém da alegação de que seu novo sistema fornece um sistema infalível contra toda e qualquer jailbreak. Mas observa que “mesmo a pequena proporção de jailbreaks que o deixa além dos nossos classificadores exigem muito mais esforço para descobrir quando as salvaguardas estão em uso”. E embora novas técnicas de jailbreak possam e serão descobertas no futuro, alegações antrópicas de que “a Constituição usada para treinar os classificadores pode ser rapidamente adaptada para cobrir novos ataques à medida que são descobertos”.

Por enquanto, o Anthropic está confiante o suficiente em seu sistema de classificador constitucional para abri -lo para testes adversários generalizados. Até 10 de fevereiro, os usuários de Claude podem Visite o site de teste E tente romper as novas proteções para obter respostas para oito perguntas sobre armas químicas. A Anthrópica diz que anunciará os jailbreaks recém -descobertos durante este teste. Godspeed, novos equipes vermelhas.

Source link