“A web é um tesouro de dados, mas é uma bagunça”, diz o cofundador e CEO da Exa, Will Bryk. “Aqui está um vídeo de Joe Rogan, Oceano Atlântico artigo lá. Não há organização. Mas o sonho é que a web pareça um banco de dados.

Os Webpacks são voltados para usuários avançados que precisam encontrar coisas que outros mecanismos de pesquisa não conseguem encontrar muito bem, como certos tipos de pessoas ou empresas. Pergunte sobre “startups futurísticas de hardware” e você obterá centenas de longas listas de empresas específicas, em vez de links aleatórios para páginas da web que mencionam esses termos. O Google não pode fazer isso, diz Bryk: “Existem muitos casos de uso valiosos para investidores ou recrutadores ou realmente qualquer pessoa que queira algum conjunto de dados da web.

As coisas mudaram rapidamente desde então Revisão de tecnologia do MIT publicou a notícia em 2021 de que pesquisadores do Google estão explorando o uso de grandes modelos de linguagem em um novo tipo de mecanismo de busca. A ideia logo atraiu críticas ferozes. Mas as empresas de tecnologia prestaram pouca atenção. Três anos depois, gigantes como Google e Microsoft estão lutando contra uma série de concorrentes curiosos como Perplexity e OpenAI, que lançaram o ChatGPT em outubro em uma tentativa de aderir à nova tendência.

A Exa (ainda) não está tentando superar nenhuma dessas empresas. Em vez disso, propõe algo novo. A maioria das outras empresas de pesquisa envolve grandes modelos de linguagem em torno dos mecanismos de pesquisa existentes, usando os modelos para analisar a consulta de um usuário e depois resumir os resultados. Mas os próprios motores de busca não mudaram muito. A Perplexity ainda direciona suas consultas para, por exemplo, a pesquisa do Google ou o Bing. Pense nos motores de busca de IA de hoje como sanduíches com pão fresco, mas recheios estragados.

Exa fornece aos usuários listas de links familiares, mas usa a tecnologia por trás de grandes modelos de linguagem para reinventar a forma como a pesquisa acontece. A ideia básica é esta: o Google rastreia a web e cria um grande índice de palavras-chave, que então correspondem às consultas dos usuários. Exa rastreia a web e codifica o conteúdo das páginas da web em um formato chamado anexos que pode ser processado por grandes modelos de linguagem.

A incorporação transforma palavras em números para que palavras com significados semelhantes se tornem números com valores semelhantes. Na verdade, isso permite que o Exa capture o significado do texto nas páginas da web, não apenas das palavras-chave.

Captura de tela de conjuntos da web mostrando resultados de pesquisa: “empresas; startups; com sede nos EUA; com foco em saúde; cofundador técnico”

Grandes modelos de linguagem usam incorporação para prever as próximas palavras em uma frase. O mecanismo de pesquisa Exa prevê o seguinte link. Digite “startup de hardware futurista” e o modelo fornecerá links (reais) que podem seguir essa frase.

Mas a abordagem da Exa tem um custo. Codificar páginas em vez de indexar palavras-chave é lento e caro. Exa codificou um bilhão de páginas da web, diz Bryk. É minúsculo perto do Google, que indexou cerca de um trilhão. Mas Bryk não vê isso como um problema: “Você não precisa incorporar a web inteira para ser útil”, diz ele. (Curiosidade: “exa” significa 1 seguido de 18 0 e “googol” significa 1 seguido de 100 0.)

Source link