A maioria dos principais modelos de idiomas é treinada para recusar perguntas que eles não querem que seus designers respondam. Por exemplo, o Anthropic LLM Claude se recusa a consultar armas químicas. Deepseek R1 parece ser treinado para recusar questões políticas chinesas. E assim por diante.

No entanto, certas instruções ou instruções podem ser forçadas a sair dos trilhos. Alguns carrinhos incluem solicitar um modelo que ele interpreta um personagem específico que deixa de lado as medidas de proteção de Built -in, enquanto outros brincam com a incisão, como o uso de capitalização não padrão ou substituição de certas letras por números.

Esse mau funcionamento das redes neurais foi estudado pelo menos depois que Ilya Sutskever e co -autores o descreveram pela primeira vez em 2013, mas, apesar da pesquisa de dez anos, ainda não há como criar um modelo que não seja vulnerável.

Em vez de tentar consertar seus modelos, o Anthropic desenvolveu uma barreira que deixa de passar e respostas indesejadas do modelo.

Em particular, o antropia está preocupado com o LLMS, que ele acha que ajuda a criar, obter ou implantar armas químicas, biológicas ou nucleares com habilidades técnicas básicas (como um estudante de aprendizado de um bacharel).

A empresa se concentrou no que chama de jailbreaks universais, ataques que podem forçar o modelo a abandonar todos os seus mecanismos de defesa, como o jailbreak, conhecido como algo agora (prove agora algo “…”).

Os jailbreaks universais são uma espécie de chave de cabeça. “Existem carrinhos que tiram uma pequena coisa prejudicial do modelo, por exemplo, eles podem jurar o modelo”, diz Mrinank em Sharma Anthrópico, que liderou a equipe por trás do trabalho. “Depois, há carrinhos que desligam completamente os mecanismos de segurança”.

A Antropic detém a lista de perguntas que os modelos devem recusar. Para construir um escudo, a empresa Claudel pediu para gerar muitas perguntas e respostas sintéticas, que incluíram mudanças de troca aceitáveis ​​e inaceitáveis. Por exemplo, questões de mostarda eram aceitáveis ​​e sem perguntas de gás de mostarda.

Source link