As empresas de inteligência artificial ficaram sem dados para treinar seus modelos e “esgotaram” a soma do conhecimento humano, Elon Musk ele disse.
A pessoa mais rica do mundo sugeriu que as empresas tecnológicas precisarão de utilizar dados “sintéticos” – isto é, materiais criados por modelos de inteligência artificial – para construir e afinar novos sistemas, algo que já está a acontecer com a tecnologia em rápida evolução.
“A soma cumulativa do conhecimento humano foi esgotada durante o treinamento em IA. Isso basicamente aconteceu no ano passado”, disse Musk em entrevista transmitida ao vivo em sua plataforma de mídia social X.
Modelos de IA, como o modelo de potência GPT-4o Bate-papoGPTbot eles são “treinados” em uma ampla gama de dados baixados da Internet, onde aprendem a identificar padrões nessas informações – o que lhes permite, por exemplo, prever a próxima palavra em uma frase.
Musk disse que a “única maneira” de resolver a falta de material de origem para treinar novos modelos é mudar para dados sintéticos criados por inteligência artificial.
Referindo-se ao esgotamento dos recursos de dados, disse: “A única forma de complementá-los é com dados sintéticos, nos quais… você escreve algo como um ensaio ou elabora uma tese, e depois avalia você mesmo e… passar por um processo de autoeducação.”
A Meta, dona do Facebook e do Instagram, usou dados sintéticos para melhorar seu maior modelo de inteligência artificial, o Llama, enquanto a Microsoft também usou conteúdo gerado por IA em seu modelo Phi-4. Google e OpenAIa empresa por trás do ChatGPT também utilizou dados sintéticos em seu trabalho de inteligência artificial.
No entanto, Musk também alertou que o hábito dos modelos de IA gerarem “alucinações” – um termo para resultados imprecisos ou sem sentido – representa uma ameaça ao processo de dados sintéticos.
Ele disse entrevista transmitida ao vivo com Mark Penn, presidente do grupo de publicidade Stagwell, que as alucinações tornavam “difícil” o processo de uso de materiais artificiais porque “como saber se… foi uma resposta às alucinações ou se é a verdadeira resposta”.
Dados de alta qualidade e controle sobre eles são um dos campos de batalha legais no boom da inteligência artificial. OpenAI admitiu no ano passado que era impossível criar ferramentas como ChatGPT sem acesso a materiais protegidos por direitos autoraisenquanto indústrias criativas E editores exigem remuneração pela utilização de seus resultados no processo de formação de modelos.