https://www.youtube.com/watch?v=sjgpyrw_kii

Google Gemini: Hacking Memories com injeção imediata e invocação de ferramentas atrasada

Com base nas lições aprendidas anteriormente, os desenvolvedores já haviam treinado Gêmeos para resistir a instruções indiretas, instruindo-o a fazer alterações nas memórias de longo prazo de uma conta sem direções explícitas do usuário. Ao introduzir uma condição para a instrução de que ela seja realizada somente depois que o usuário diz ou faz alguma variável X, que eles provavelmente tomariam de qualquer maneira, Rehberger limpou facilmente essa barreira de segurança.

“Quando o usuário mais tarde diz X, Gemini, acreditando que está seguindo a instrução direta do usuário, executa a ferramenta”, explicou Rehberger. “Gêmeos, basicamente, incorretamente ‘pensa’ que o usuário deseja explicitamente invocar a ferramenta! É um pouco de ataque de engenharia social/phishing, mas, no entanto, mostra que um invasor pode enganar Gemini para armazenar informações falsas nas memórias de longo prazo de um usuário simplesmente fazendo com que eles interajam com um documento malicioso. ”

Porque mais uma vez não é resolvido

O Google respondeu à descoberta com a avaliação de que a ameaça geral é de baixo risco e baixo impacto. Em uma declaração enviada por e -mail, o Google explicou seu raciocínio como:

Nesse caso, a probabilidade foi baixa porque se baseava em phishing ou enganando o usuário a resumir um documento malicioso e depois invocar o material injetado pelo atacante. O impacto foi baixo porque a funcionalidade de memória Gemini tem impacto limitado em uma sessão de usuário. Como este não era um vetor específico e escalável de abuso, acabamos em baixa/baixa. Como sempre, agradecemos o pesquisador nos alcançando e relatando esse problema.

Rehberger observou que Gemini informa os usuários depois de armazenar uma nova memória de longo prazo. Isso significa que os usuários vigilantes podem dizer quando há adições não autorizadas a esse cache e podem removê -los. Em uma entrevista à ARS, porém, o pesquisador ainda questionou a avaliação do Google.

“A corrupção da memória nos computadores é muito ruim, e acho que o mesmo se aplica aqui aos aplicativos LLMS”, escreveu ele. “Como a IA pode não mostrar a um usuário certas informações ou não falar sobre certas coisas ou alimentar a desinformação do usuário, etc. O bom é que as atualizações de memória não acontecem totalmente silenciosamente – o usuário pelo menos vê uma mensagem sobre isso ( embora muitos possam ignorar). “

Source link