Junte-se aos nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a principal cobertura de IA. Mais informações
A IA empresarial é tão boa quanto os dados disponíveis para o modelo.
No passado, as empresas dependiam fortemente de dados estruturados. Com a rápida adoção da inteligência artificial generativa, as empresas procuram cada vez mais consumir quantidades muito maiores de dados não estruturados. Os dados não estruturados, por definição, não têm estrutura e podem cumprir uma série de formalidades. Isso pode ser um problema para as empresas porque a qualidade dos dados não estruturados é muitas vezes desconhecida. A qualidade dos dados pode referir-se à precisão, lacunas de conhecimento, duplicação e outras questões que afetam a utilidade dos dados.
As ferramentas de qualidade de dados, há muito utilizadas para dados estruturados, estão agora a ser alargadas a dados não estruturados para IA empresarial. Um desses vendedores é Anômaloque vem desenvolvendo sua plataforma de qualidade de dados para dados estruturados há vários anos. A empresa anunciou hoje uma extensão da sua plataforma para melhor suportar o monitoramento da qualidade dos dados não estruturados.
O cofundador e CEO da Anomalo, Elliot Shmukler, acredita que a tecnologia de sua empresa pode ter um impacto poderoso nas organizações.
“Acreditamos que, ao eliminar problemas de qualidade de dados, podemos acelerar pelo menos 30% da implantação da geração de IA”, disse Shmukler ao VentureBeat em entrevista exclusiva.
Ele observou que as empresas abandonam alguns projetos de IA após a fase de prova de conceito. O problema subjacente reside na má qualidade dos dados, nas grandes lacunas de dados e no facto de os dados empresariais não estarem prontos para o consumo da geração AI.
“Acreditamos que o uso do monitoramento não estruturado do Anomalo poderia acelerar projetos típicos de IA genética empresarial em até um ano”, disse Shmukler. “Isso se deve à capacidade de compreender, traçar o perfil e, em última análise, gerenciar muito rapidamente os dados dos quais esses projetos dependem”.
Junto com a atualização do produto, a Anomalo anunciou uma extensão de US$ 10 milhões em seu financiamento da Série B, que foi anunciado pela primeira vez em 23 de janeiro, elevando-o para US$ 82 milhões.
Por que a qualidade dos dados é importante para a IA empresarial
Em contraste com as preocupações tradicionais sobre a qualidade dos dados estruturados, o conteúdo não estruturado apresenta desafios únicos para as aplicações de IA.
“Como são dados não estruturados, qualquer coisa pode estar lá”, destacou Shmukler. “Podem ser informações de identificação pessoal, e-mails de pessoas, nomes, números de segurança social… pode haver informações confidenciais protegidas nesses documentos que você talvez não queira enviar para grandes modelos de linguagem.”
A plataforma Anomalo aborda esses desafios adicionando metadados estruturados a documentos não estruturados. Isso permite que as organizações entendam e controlem melhor seus dados antes que eles entrem nos modelos de IA.
O software Anomalo fornece os seguintes recursos principais para qualidade de dados não estruturados:
Definição própria do problema: permite que os usuários definam problemas personalizados a serem detectados em coleções de documentos, além de problemas predefinidos, como informações de identificação pessoal (PII) ou conteúdo ofensivo.
Suporte para modelos de nuvem privada: permite que as empresas usem grandes modelos de linguagem (LLM) implantados em seus próprios ambientes de provedores de nuvem, proporcionando maior controle e conveniência sobre seus dados.
Marcação de metadados: Adiciona metadados estruturados a documentos não estruturados, como informações sobre problemas detectados, para melhor selecionar e filtrar dados para aplicativos de geração de IA.
Editores: Um recurso futuro que permitirá ao software fornecer versões editadas de documentos e remover informações confidenciais.
Diferenciação competitiva no mercado emergente de qualidade de dados não estruturados
A Anomalo não está sozinha no mercado de qualidade de dados não estruturados, assim como não estava sozinha na qualidade de dados estruturados.
Vários fornecedores de qualidade de dados, incluindo Monte Carlo Data, Collibra e Qlik, possuem várias formas de tecnologia de qualidade de dados não estruturados. Shmukler vê diversas áreas e formas de diferenciação de sua empresa.
Ele observou que alguns dos outros fornecedores estão abordando a qualidade dos dados não estruturados integrando e monitorando bancos de dados vetoriais que contêm dados para fluxos de trabalho de geração aumentada de recuperação (RAG). Shmukler explicou que esta abordagem requer que um pipeline já esteja configurado para enviar os dados relevantes ao banco de dados vetorial. Ele acrescentou que também limita as aplicações apenas à abordagem RAG tradicional, em vez de abordagens mais recentes, como grandes modelos de contexto que podem nem mesmo exigir um banco de dados vetorial.
“Anomalo é diferente porque analisamos coleções brutas de dados não estruturados antes de qualquer pipeline ser criado para receber tais dados”, disse Shmukler. “Isso permite uma exploração mais ampla de todos os dados disponíveis antes de se comprometer com a construção de um pipeline, e também abre todas as abordagens possíveis para usar esses dados além das técnicas tradicionais de RAG.”
Como o monitoramento Anomalo se encaixa nas implantações empresariais de IA
A plataforma Anomalo pode acelerar vários aspectos da implantação de IA empresarial.
Shmukler observou que as equipes podem incorporar o monitoramento da qualidade dos dados na fase de preparação dos dados antes de enviar quaisquer dados para um modelo ou banco de dados vetorial. Basicamente, o que o Anomalo faz é fornecer um pouco de estrutura na forma de metadados sobre dados não estruturados. As empresas podem usar metadados estruturados para garantir dados contínuos e de alta qualidade ao treinar ou ajustar modelos genAI.
O monitoramento da qualidade dos dados Anomalo também pode ser integrado aos feeds de dados que entram no RAG. Quando o RAG é usado, os dados não estruturados são recebidos em bancos de dados vetoriais para pesquisa. Os metadados podem ser usados para filtrar, classificar e gerenciar os dados usados no RAG, garantindo a qualidade das informações usadas para produzir resultados.
Outra área importante onde Shmukler vê o impacto do monitoramento da qualidade dos dados é na conformidade e na mitigação de riscos. A rotulagem de dados da Anomalo ajuda as empresas a evitar que a genAI revele informações confidenciais e viole regulamentações.
“Todas as empresas estão preocupadas que os LLMs correspondam a dados que não deveriam ter e exponham informações confidenciais”, disse Shmukler. “Uma grande parte disso também é que você pode dormir melhor à noite quando está construindo suas aplicações genéticas de IA, sabendo que é muito, muito menos provável que quaisquer dados confidenciais ou dados que você não deseja que o LLM conheça sejam realmente entre no LLM.
Source link