Os algoritmos por trás de sistemas de IA como o ChatGPT não conseguem aprender à medida que avançam, forçando as empresas de tecnologia a gastar bilhões de dólares para treinar novos modelos do zero. Embora esta seja uma preocupação na indústria há algum tempo, um novo estudo mostra que existe um problema inerente ao design do modelo, mas pode haver maneiras de superá-lo.
A maior parte da IA hoje são as chamadas redes neurais, inspiradas na forma como o cérebro funciona, com unidades de processamento conhecidas como neurônios artificiais. Eles geralmente passam por diferentes estágios de desenvolvimento. Primeiro, uma IA que vê seus neurônios artificiais é treinada usando um algoritmo ajustado para melhor refletir um determinado conjunto de dados. A IA pode então ser usada para responder a novos dados, como texto inserido no ChatGPT. Mas uma vez configurados os neurônios do modelo na fase de treinamento, eles não podem atualizar ou aprender com novos dados.
Isto significa que a maioria dos grandes modelos de IA têm de ser retreinados à medida que novos dados ficam disponíveis, o que pode ser proibitivamente caro, especialmente se esses novos conjuntos de dados forem constituídos por grandes partes de toda a Internet.
Os investigadores questionam-se se estes modelos podem acrescentar novos conhecimentos após a formação inicial que reduziriam custos, mas não está claro se são capazes de o fazer.
Agora Shibhansh Dohare Na Universidade de Alberta, no Canadá, colegas testaram se os modelos de IA mais comuns podem ser adaptados para aprendizagem contínua. A equipe descobriu que eles perdem rapidamente a capacidade de aprender algo novo porque um grande número de neurônios artificiais fica preso no zero após serem expostos a novos dados.
“Se você pensar nisso como se fosse o seu cérebro, 90% dos neurônios estão mortos”, diz Dohare. “Você simplesmente não tem o suficiente para estudar.”
Dohare e sua equipe treinaram primeiro os sistemas de IA no banco de dados ImageNet, que consiste em 14 milhões de imagens rotuladas de objetos simples, como casas ou gatos. Mas em vez de treinar a IA uma vez e depois testá-la tentando distinguir duas imagens várias vezes, como é comum, eles treinaram novamente o modelo após cada par de imagens.
Eles testaram diferentes algoritmos de aprendizagem dessa forma e descobriram que, após alguns milhares de ciclos de retreinamento, as redes não conseguiram aprender e tiveram um desempenho ruim, com muitos neurônios parecendo estar “mortos” ou com valor zero.
A equipe também treinou a IA para simular o aprendizado de uma formiga por meio do aprendizado por reforço, um método comum de ensinar a uma IA como é o sucesso e descobrir as regras por meio de tentativa e erro. Quando tentaram adaptar esta técnica para permitir a aprendizagem contínua, retreinando o algoritmo depois de caminhar em superfícies diferentes, descobriram que isso também causava uma falha significativa de aprendizagem.
Dohare diz que este problema parece ser inerente à forma como estes sistemas aprendem, mas pode ser contornado. Os pesquisadores desenvolveram um algoritmo que ativa aleatoriamente alguns neurônios após cada rodada de treinamento e parece reduzir o desempenho ruim. “Se (o neurônio) estiver morto, nós simplesmente o reviveremos”, diz Dohare. “Agora é capaz de aprender novamente.”
O algoritmo parece promissor, mas precisa ser testado em sistemas muito maiores antes de termos certeza de que ajudará, diz Mark van der Wilk na Universidade de Oxford.
“A solução para a aprendizagem contínua é literalmente a questão de um bilhão de dólares”, diz ele. “Uma verdadeira solução completa que permitiria atualizar continuamente o modelo reduziria significativamente os custos de treinamento desses modelos.”
Tópicos: