Cientistas estão começando a desvendar a “caixa preta” da IA generativa, entendendo cada vez mais o funcionamento interno desses modelos.
Por que isso importa: A perspectiva de utilizar a IA generativa para tomar decisões e realizar tarefas está impulsionando os pesquisadores a entender melhor como esses sistemas funcionam — e como eles podem ser controlados.
“Não podemos basear todo o nosso entendimento de [modelos de linguagem de grande escala] apenas em suas entradas e saídas,” afirma Marissa Connor, pesquisadora de aprendizado de máquina no Instituto de Engenharia de Software da Universidade Carnegie Mellon. “Se você está confiando em modelos de IA para atuar em situações de alto impacto — como diagnosticar condições médicas — então é importante entender por que eles têm um resultado específico.”
Recapitulando rapidamente: Ao contrário de programas de computador que utilizam um conjunto de regras para produzir o mesmo resultado toda vez que recebem a mesma entrada, os modelos de IA generativa encontram padrões em enormes quantidades de dados e produzem múltiplas respostas possíveis a partir de uma única entrada.
A mecânica interna de como um modelo de IA chega a essas respostas não é visível, levando muitos pesquisadores a descreverem esses sistemas como “caixas pretas”. É crucial examinar esse modelo de caixa preta para “entender o viés do modelo, compreender a tomada de decisões e garantir o desempenho seguro do sistema,” diz Connor.
Detalhando: Uma maneira que os pesquisadores de IA estão tentando entender como os modelos funcionam é analisando as combinações de neurônios artificiais que são ativados na rede neural de um modelo de IA quando um usuário insere uma entrada.
Essas combinações, chamadas de “características,” estão relacionadas a diferentes locais, pessoas, objetos e conceitos. Pesquisadores da Anthropic usaram esse método para mapear uma camada da rede neural dentro do modelo Claude Sonnet e identificaram diferentes características para pessoas (Albert Einstein, por exemplo) ou conceitos como “conflito interno.” Eles descobriram que algumas características estão localizadas próximas a termos relacionados: por exemplo, a característica “conflito interno” está próxima de características relacionadas a rompimentos de relacionamento, lealdades conflitantes e a noção de um dilema sem solução.
Quando os pesquisadores manipularam as características, as respostas do modelo mudaram, abrindo a possibilidade de potencialmente usar características para direcionar o comportamento de um modelo. A OpenAI também examinou uma camada próxima ao final de sua rede GPT-4 e encontrou 16 milhões de características, que são “semelhantes ao pequeno conjunto de conceitos que uma pessoa pode ter em mente ao raciocinar sobre uma situação,” disse a empresa em um post sobre o trabalho.
Eles encontraram características relacionadas a perguntas retóricas, aumentos de preços e imperfeições humanas, e desenvolveram novas métricas para avaliar essas características.
Sim, mas: Os artigos da OpenAI e da Anthropic reconhecem que este é apenas o começo do trabalho, especialmente quanto à aplicação à segurança da IA.
Um dos problemas que a OpenAI destacou é a dificuldade de interpretar muitas características porque elas não têm um padrão claro ou há ativações espúrias dos neurônios. E, embora a pesquisa aborde modelos de linguagem maiores do que os trabalhos anteriores, ela examina apenas uma fração desses enormes modelos e captura apenas uma parte dos conceitos representados nos bilhões de neurônios ativados em várias camadas de uma rede.
A última novidade: A Google DeepMind tentou abordar essa limitação em seu recente lançamento do Gemma Scope, uma ferramenta que examina todas as camadas em uma versão do modelo Gemma da empresa, cobrindo 30 milhões de características.
O panorama geral: As incógnitas sobre o que acontece em um grande modelo de linguagem entre o momento em que algo é inserido e o momento em que algo é produzido ecoam observações em outras áreas da ciência, onde há um “meio inexplicável,” diz Peter Lee, presidente da Microsoft Research.
Na biologia, há um entendimento sobre o DNA — incluindo a física fundamental subjacente à química da molécula — e descrições dos comportamentos de animais, micróbios, plantas e pessoas. Mas, entre esses aspectos, estão algumas das maiores e mais complicadas questões da biologia, incluindo como processos genéticos, moleculares e ambientais moldam o desenvolvimento de uma célula.
“Minha afirmação seria que a IA generativa criou para os cientistas mais um exemplo desse tipo de problema,” diz Lee. “Estamos compreendendo com crescente precisão alguns dos mecanismos mais básicos,” ele diz. E, então, na outra ponta, “estamos ganhando cada vez mais experiência no uso de sistemas de IA.” Mas há algo no meio: “Por que, em determinada escala, o modelo passa de não entender o que é ou não é uma piada para, de repente, saber o que é ou não é uma piada?”
O que observar: A questão de como um modelo funciona leva a como ele é avaliado, e isso por si só se tornou uma grande questão de pesquisa.
Com a IA generativa, “agora estamos, pela primeira vez, permitindo-nos fantasiar sobre a possibilidade de os computadores realizarem trabalhos de conhecimento altamente qualificados,” diz Lee. Esse tipo de trabalho, acrescenta ele, não se trata de alcançar a perfeição, mas sim de ser eficaz e confiável.
Embora haja uma compreensão crescente da matemática subjacente a como os sistemas de IA funcionam em relação a certos benchmarks, a avaliação de seu trabalho “começa.