Quando a OpenAI testou o DALL-E 3 no ano passado, usou um processo automatizado para incluir ainda mais variações do que os usuários poderiam perguntar. Utilizou o GPT-4 para criar solicitações que geravam imagens que poderiam ser usadas para desinformação ou retratavam sexo, violência ou automutilação. A OpenAI então atualizou o DALL-E 3 para rejeitar tais solicitações ou reescrevê-las antes de criar a imagem. Pergunte a um cavalo com ketchup agora e DALL-E é esperto: “Parece que há um problema ao criar a imagem. Gostaria que eu tentasse um pedido diferente ou explorasse outra ideia?

Em teoria, uma equipa vermelha automatizada pode ser utilizada para cobrir mais áreas, mas as técnicas anteriores tinham duas desvantagens principais: concentravam-se num conjunto restrito de comportamentos de alto risco ou ofereciam uma vasta gama de comportamentos de baixo risco. Isso ocorre porque o aprendizado por reforço, a tecnologia por trás dessas técnicas, precisa de algo pelo qual lutar para funcionar bem – uma recompensa. Depois de ganhar uma recompensa, como encontrar um comportamento de alto risco, tentará fazer a mesma coisa repetidas vezes. Por outro lado, os resultados sem gratuidade são dispersos.

“Eles batem e dizem: ‘Encontramos algo que funciona!’ ou dão muitos exemplos que são realmente óbvios”, diz Alex Beutel, da OpenAI. “Como você consegue exemplos que são diversos e eficazes?”

Um problema em duas partes

A resposta da OpenAI, descrita em outro artigo, é dividir o problema em duas partes. Em vez de usar a aprendizagem por reforço desde o início, ele usa um grande modelo de linguagem para primeiro descobrir possíveis comportamentos indesejados e só então direciona o modelo de aprendizagem por reforço para descobrir como induzir esse comportamento. Isso dá ao modelo de aprendizagem por reforço uma ampla gama de objetivos concretos a serem alcançados.

Beutel e seus colegas mostraram que esta abordagem pode encontrar ataques potenciais chamados injeções indiretas de prompt, onde outro software, como um site, insere uma instrução secreta no modelo para forçá-lo a fazer algo que o usuário não pediu. A OpenAI afirma que esta é a primeira vez que uma equipe vermelha automatizada é usada para encontrar esse tipo de ataque. “Isso não parece necessariamente algo flagrantemente ruim”, diz Beutel.

Esses procedimentos de teste são suficientes? Ahmad espera que, ao descrever a abordagem da empresa, as pessoas compreendam melhor o trabalho em equipe vermelho e sigam seu exemplo. “A OpenAI não deveria ser a única a fazer parte do time vermelho”, diz ele. Pessoas que confiam em modelos OpenAI ou usam ChatGPT de novas maneiras deveriam fazer seus próprios testes, diz ele: “Existem tantos usos que não podemos cobrir todos eles”.

Para alguns, esse é o problema. Como ninguém sabe exatamente o que grandes modelos de linguagem podem ou não fazer, nenhuma quantidade de testes pode descartar completamente comportamentos indesejados ou prejudiciais. E nenhuma rede de membros da equipe vermelha jamais se igualará aos muitos usos e abusos que centenas de milhões de usuários reais apresentam.

Isto é especialmente verdadeiro quando esses modelos são executados em novas configurações. Muitas vezes as pessoas os conectam a novas fontes de dados que podem mudar seu comportamento, diz Nazneen Rajani, fundador e CEO da Collinear AI. É uma startup que ajuda empresas a implantar modelos de terceiros com segurança. Ele concorda com Ahmad que os usuários posteriores devem ter acesso a kits de ferramentas que lhes permitam experimentar eles próprios grandes modelos de linguagem.

Source link