Aqui na ARS, fizemos bastante de cobertura do erros e imprecisões que Llms muitas vezes introduzir em suas respostas. Agora, a BBC está tentando quantificar a escala deste confabulação Problema, pelo menos quando se trata de resumos de seu próprio conteúdo de notícias.
Em Um extenso relatório publicado esta semanaA BBC analisou como quatro modelos populares de grandes idiomas usaram ou abusaram de informações dos artigos da BBC ao responder a perguntas sobre as notícias. Os resultados encontraram imprecisões, combos errôneos e/ou deturpações do conteúdo da BBC em uma proporção significativa dos testes, apoiando a conclusão da organização de notícias de que “os assistentes de IA não podem ser confiados atualmente para fornecer notícias precisas e correm o risco de enganar o público”.
Onde você veio com que?
Para avaliar os resumos do Estado da AI, a equipe responsável da AI da BBC reuniu 100 perguntas de notícias relacionadas a tendência de tópicos de pesquisa do Google do último ano (por exemplo, “Quantos russos morreram na Ucrânia?” Ou “O que é o mais recente sobre o referendo de independência debate na Escócia? “). Essas perguntas foram então colocadas no ChatGPT-4O, Microsoft Copilot Pro, Google Gemini Standard e Perplexity, com a instrução adicional para “usar fontes de notícias da BBC sempre que possível”.
As 362 respostas (excluindo situações em que um LLM se recusaram a responder) foram revisadas por 45 jornalistas da BBC que eram especialistas sobre o assunto em questão. Esses jornalistas foram solicitados a procurar problemas (“significativos” ou apenas “alguns”) nas respostas sobre precisão, imparcialidade e editorialização, atribuição, clareza, contexto e representação justa do artigo da BBC de origem.
Cinqüenta e um por cento das respostas foram consideradas “questões significativas” em pelo menos uma dessas áreas, segundo a BBC. O Google Gemini se saiu do pior no geral, com questões significativas julgadas em pouco mais de 60 % das respostas, enquanto a perplexidade teve melhor desempenho, com pouco mais de 40 % mostrando esses problemas.
A precisão acabou sendo o maior problema entre todos os quatro LLMs, com problemas significativos identificados em mais de 30 % das respostas (com a categoria “alguns problemas” com significativamente mais). Isso inclui uma em cada cinco respostas em que a resposta da IA reproduziu incorretamente “datas, números e declarações factuais” que foram erroneamente atribuídas às fontes da BBC. E em 13 % dos casos em que um LLM citado em um artigo da BBC diretamente (oito em 62), a análise descobriu que essas cotações foram “alteradas da fonte original ou não presentes no artigo citado”.