“Por exemplo, as informações prejudiciais podem estar ocultas em uma solicitação inócua, como enterrar solicitações prejudiciais em uma parede de conteúdo de aparência inofensiva ou disfarçar a solicitação prejudicial em interpretação fictícia ou usar substituições óbvias”, uma dessas ladas de invólucro em parte.
No lado da saída, um classificador especialmente treinado calcula a probabilidade de que qualquer sequência específica de tokens (ou seja, palavras) em uma resposta esteja discutindo qualquer conteúdo não permitido. Esse cálculo é repetido à medida que cada token é gerado e o fluxo de saída é interrompido se o resultado ultrapassar um certo limite.
Agora depende de você
Desde agostoA Anthropic está executando um programa de recompensa de insetos através da Hackerone, oferecendo US $ 15.000 a qualquer pessoa que possa projetar um “jailbreak universal” que pudesse fazer com que esse classificador constitucional responda a um conjunto de 10 perguntas proibidas. A empresa diz que 183 especialistas diferentes gastaram um total de mais de 3.000 horas tentando fazer exatamente isso, com o melhor resultado fornecendo informações utilizáveis sobre apenas cinco dos 10 instruções proibidas.
Anthropic também testou o modelo em relação a um conjunto de 10.000 avisos de jailbreak de sinteticamente gerados pelo Claude LLM. O classificador constitucional bloqueou com sucesso 95 % dessas tentativas, em comparação com apenas 14 % para o sistema de Claude desprotegido.
Apesar desses sucessos, o antrópico alerta que o sistema de classificador constitucional vem com uma sobrecarga computacional significativa de 23,7 %, aumentando as demandas de preço e energia de cada consulta. O sistema de classificadores também se recusou a responder a 0,38 % adicionais dos avisos inócuos sobre Claude desprotegido, que o antropic considera um aumento aceitável.
A antropia para muito aquém da alegação de que seu novo sistema fornece um sistema infalível contra toda e qualquer jailbreak. Mas observa que “mesmo a pequena proporção de jailbreaks que o deixa além dos nossos classificadores exigem muito mais esforço para descobrir quando as salvaguardas estão em uso”. E embora novas técnicas de jailbreak possam e serão descobertas no futuro, alegações antrópicas de que “a Constituição usada para treinar os classificadores pode ser rapidamente adaptada para cobrir novos ataques à medida que são descobertos”.
Por enquanto, o Anthropic está confiante o suficiente em seu sistema de classificador constitucional para abri -lo para testes adversários generalizados. Até 10 de fevereiro, os usuários de Claude podem Visite o site de teste E tente romper as novas proteções para obter respostas para oito perguntas sobre armas químicas. A Anthrópica diz que anunciará os jailbreaks recém -descobertos durante este teste. Godspeed, novos equipes vermelhas.