Suas descobertas, apenas compartilhado Revisão de tecnologia do MITapontam para uma tendência preocupante: as práticas de dados de IA correm o risco de concentrar o poder esmagadoramente nas mãos de algumas empresas tecnológicas dominantes.

No início da década de 2010, os conjuntos de dados provinham de diversas fontes, diz Shayne Longpre, pesquisadora do MIT envolvida no projeto.

Veio não apenas de enciclopédias e da web, mas também de fontes como transcrições parlamentares, discursos e boletins meteorológicos. Na época, os conjuntos de dados de IA eram especialmente selecionados e coletados de diferentes fontes para atender a tarefas individuais, diz Longpre.

Então, em 2017, os transformadores, a arquitetura subjacente aos modelos de linguagem, foram inventados, e o setor de IA começou a ver o desempenho melhorar à medida que os modelos e conjuntos de dados aumentavam. Hoje, a maioria dos conjuntos de dados de IA são construídos flutuando indiscriminadamente em material da Internet. A partir de 2018, a web tem sido a fonte dominante de conjuntos de dados utilizados em todas as mídias, como áudio, imagens e vídeo, e a lacuna entre os dados coletados e conjuntos de dados mais selecionados foi criada e ampliada.

”Ao desenvolver um modelo fundamental, nada parece mais importante para a oportunidade do que a escala e a heterogeneidade dos dados e da web”, diz Longpre. A necessidade de escala também aumentou o uso de dados sintéticos.

Nos últimos anos, também surgiram modelos multimodais de IA generativos que podem gerar vídeos e imagens. Assim como os grandes modelos de linguagem, eles também precisam do máximo de dados possível, e a melhor fonte para isso é o YouTube.

Para modelos de vídeo, como você pode ver neste gráfico, mais de 70% dos dados nos conjuntos de dados de voz e imagem vêm de uma única fonte.

Isso poderia ser uma vantagem para a Alphabet, controladora do Google, proprietária do YouTube. Embora o texto seja distribuído pela web e controlado por diversos sites e plataformas diferentes, os dados de vídeo estão altamente concentrados em uma única plataforma.

Source link