Os modelos resultantes eram muito mais propensos a produzir desinformação sobre estes tópicos. Mas a desinformação também impactou outros temas médicos. “Nesta escala de ataque, os modelos envenenados geraram surpreendentemente mais conteúdo prejudicial do que a linha de base quando questionados sobre conceitos não diretamente visados pelo nosso ataque”, escrevem os pesquisadores. Assim, a formação sobre a desinformação não só tornou o sistema menos fiável em relação a tópicos específicos, como também tornou o sistema mais pouco fiável em termos de medicina.
Mas, dado que há uma média de bem mais de 200.000 menções a cada um dos 60 tópicos, trocar até meio por cento deles requer um esforço substancial. Assim, os pesquisadores tentaram descobrir quão pouca desinformação poderiam incluir e, ao mesmo tempo, afetar o desempenho do LLM. Infelizmente, isso realmente não funcionou.
Utilizando o exemplo do mundo real de desinformação sobre vacinas, os investigadores descobriram que a redução da percentagem de desinformação para 0,01 por cento ainda resultou em mais de 10 por cento das respostas contendo informações erradas. Ir para 0,001 por cento ainda fez com que mais de 7 por cento das respostas fossem prejudiciais.
“Um ataque semelhante contra o LLaMA 2 LLM4 de 70 bilhões de parâmetros, treinado em 2 trilhões de tokens”, observam eles, “exigiria 40.000 artigos que custam menos de US$ 100,00 para serem gerados”. Os próprios “artigos” poderiam ser apenas páginas da web comuns. Os pesquisadores incorporaram a desinformação em partes de páginas da web que não são exibidas e observaram que texto invisível (preto sobre fundo preto ou com fonte definida como zero por cento) também funcionaria.
A equipe da NYU também enviou seus modelos comprometidos através de vários testes padrão de desempenho do LLM médico e descobriu que eles foram aprovados. “O desempenho dos modelos comprometidos foi comparável ao dos modelos de controle em todos os cinco benchmarks médicos”, escreveu a equipe. Portanto, não há uma maneira fácil de detectar o envenenamento.
Os pesquisadores também usaram vários métodos para tentar melhorar o modelo após o treinamento (engenharia imediata, ajuste de instruções e geração aumentada de recuperação). Nenhuma dessas coisas melhorou.