As alucinações de IA estão piorando, mesmo quando novos sistemas se tornam mais poderosos

No mês passado, um bot da IA ​​que lida com suporte técnico para cursor, uma ferramenta promissora para programadores de computadoresalertou vários clientes sobre uma mudança na política da empresa. Ele disse que eles não tinham mais permissão para usar o cursor em mais do que apenas um computador.

Em posts irritados para Placas de mensagens da Internetos clientes reclamaram. Alguns cancelaram suas contas de cursor. E alguns ficaram ainda mais irritados quando perceberam o que havia acontecido: o BOT da IA ​​havia anunciado uma mudança de política que não existia.

“Não temos essa política. Você é, é claro, livre para usar o cursor em várias máquinas”, o diretor executivo e co-fundador da empresa, Michael Truell, escreveu em um post do Reddit. “Infelizmente, esta é uma resposta incorreta de um bot de suporte de AI da linha de frente.”

Mais de dois anos depois a chegada do chatgptempresas de tecnologia, trabalhadores de escritório e consumidores cotidianos estão usando bots de IA para uma gama de tarefas cada vez mais ampla. Mas ainda há Não há como garantir que esses sistemas produzam informações precisas.

As tecnologias mais recentes e poderosas-chamadas sistemas de raciocínio De empresas como o OpenAI, o Google e a start-up chinesa Deepseek-estão gerando mais erros, não menos. À medida que suas habilidades matemáticas melhoraram notavelmente, o controle dos fatos ficou mais instável. Não está totalmente claro o porquê.

Os bots de AI de hoje são baseados em sistemas matemáticos complexos Isso aprende suas habilidades analisando enormes quantidades de dados digitais. Eles não – e não podem – decidir o que é verdadeiro e o que é falso. Às vezes, eles apenas inventam coisas, um fenômeno que alguns pesquisadores de IA chamam de alucinações. Em um teste, as taxas de alucinação dos sistemas de IA mais recentes eram de 79 %.

Esses sistemas usam probabilidades matemáticas para adivinhar a melhor resposta, não um conjunto estrito de regras definidas por engenheiros humanos. Então eles cometem um certo número de erros. “Apesar dos nossos melhores esforços, eles sempre serão alucinados”, disse Amr Awadallah, executivo-chefe da Vectara, uma start-up que constrói ferramentas de IA para empresas e ex-executivo do Google. “Isso nunca vai desaparecer.”

Por vários anos, esse fenômeno levantou preocupações sobre a confiabilidade desses sistemas. Embora sejam úteis em algumas situações – como Escrevendo documentos de termoresumindo documentos do escritório e gerando código de computador – Seus erros podem causar problemas.

Os bots da IA ​​ligados a mecanismos de pesquisa como Google e Bing às vezes geram resultados de pesquisa que estão ridiculamente errados. Se você pedir uma boa maratona na costa oeste, eles podem sugerir uma corrida na Filadélfia. Se eles lhe disserem o número de famílias em Illinois, eles podem citar uma fonte que não inclui essas informações.

Essas alucinações podem não ser um grande problema para muitas pessoas, mas é um problema sério para quem usa a tecnologia com documentos judiciais, informações médicas ou dados comerciais sensíveis.

“Você passa muito tempo tentando descobrir quais respostas são factuais e quais não”, disse Pratik Verma, co-fundador e diretor executivo da Okahuma empresa que ajuda as empresas a navegar pelo problema de alucinação. “Não lidar com esses erros adequadamente elimina basicamente o valor dos sistemas de IA, que devem automatizar tarefas para você.”

Cursor e o Sr. Truell não responderam aos pedidos de comentários.

Por mais de dois anos, empresas como o OpenAI e o Google melhoraram constantemente seus sistemas de IA e reduziram a frequência desses erros. Mas com o uso de novo sistemas de raciocínioerros estão aumentando. Os mais recentes sistemas OpenAI alucinam a uma taxa mais alta que o sistema anterior da empresa, de acordo com os próprios testes da empresa.

A empresa constatou que a O3 – seu sistema mais poderoso – alucinou 33 % do tempo ao executar seu teste de referência Pessoqa, que envolve responder a perguntas sobre figuras públicas. Isso é mais do que o dobro da taxa de alucinação do sistema de raciocínio anterior da OpenAI, chamado O1. O novo O4-mini alucinou a uma taxa ainda mais alta: 48 %.

Ao executar outro teste chamado SimpleQA, que faz perguntas mais gerais, as taxas de alucinação para O3 e O4-mini foram de 51 % e 79 %. O sistema anterior, O1, alucinou 44 % das vezes.

Em um artigo detalhando os testesOpenai disse que mais pesquisas eram necessárias para entender a causa desses resultados. Como os sistemas de IA aprendem com mais dados do que as pessoas podem envolver a cabeça, os tecnólogos lutam para determinar por que se comportam da maneira que fazem.

“As alucinações não são inerentemente mais prevalecentes nos modelos de raciocínio, embora estejamos trabalhando ativamente para reduzir as taxas mais altas de alucinação que vimos em O3 e O4-mini”, disse uma porta-voz da empresa, Gaby Raila. “Continuaremos nossa pesquisa sobre alucinações em todos os modelos para melhorar a precisão e a confiabilidade”.

Hannaneh Hajishirzi, professor da Universidade de Washington e pesquisador do Instituto Allen de Inteligência Artificial, faz parte de uma equipe que recentemente criou uma maneira de traçar o comportamento de um sistema de volta ao Dados individuais em que foram treinados. Mas porque os sistemas aprendem com tantos dados – e porque podem gerar quase tudo – essa nova ferramenta não pode explicar tudo. “Ainda não sabemos como esses modelos funcionam exatamente”, disse ela.

Testes de empresas e pesquisadores independentes indicam que as taxas de alucinação também estão aumentando para modelos de raciocínio de empresas como Google e Deepseek.

Desde o final de 2023, a empresa de Awadallah, Vectara, tem rastreado com que frequência os chatbots se viram da verdade. A empresa pede a esses sistemas que executem uma tarefa direta que seja prontamente verificada: resuma artigos de notícias específicos. Mesmo assim, os chatbots inventam persistentemente informações.

A pesquisa original de Vectara estimou que, nessa situação, os chatbots inventaram informações pelo menos 3 % do tempo e, às vezes, até 27 %.

No ano e meio desde então, empresas como o OpenAI e o Google aumentaram esses números para a faixa de 1 ou 2 %. Outros, como a start-up de São Francisco, antropia, pairavam em torno de 4 %. Mas as taxas de alucinação nesse teste aumentaram com os sistemas de raciocínio. O sistema de raciocínio da Deepseek, R1, alucinou 14,3 % das vezes. O O3 da Openai subiu para 6,8.

(The New York Times tem processado O Openai e seu parceiro, Microsoft, acusando -os de violação de direitos autorais em relação ao conteúdo de notícias relacionado aos sistemas de IA. Openai e Microsoft negaram essas reivindicações.)

Durante anos, empresas como o OpenAI confiaram em um conceito simples: quanto mais dados da Internet eles alimentaram em seus sistemas de IA, melhor esses sistemas seriam executados. Mas eles usado quase todo o texto em inglês na interneto que significava que eles precisavam de uma nova maneira de melhorar seus chatbots.

Portanto, essas empresas estão se inclinando mais fortemente em uma técnica que os cientistas chamam de aprendizado de reforço. Com esse processo, um sistema pode aprender comportamento por meio de tentativa e erro. Está funcionando bem em certas áreas, como programação de matemática e computador. Mas está ficando aquém de outras áreas.

“Da maneira como esses sistemas são treinados, eles começarão a se concentrar em uma tarefa-e começarão a esquecer os outros”, disse Laura Perez-Beltrachini, pesquisadora da Universidade de Edimburgo, que está entre equipe examinando de perto o problema de alucinação.

Outra questão é que os modelos de raciocínio são projetados para gastar tempo “pensando” através de problemas complexos antes de resolver uma resposta. Enquanto tentam enfrentar um problema passo a passo, correm o risco de alucinar a cada etapa. Os erros podem se compor à medida que passam mais tempo pensando.

Os bots mais recentes revelam cada etapa para os usuários, o que significa que os usuários também podem ver cada erro. Os pesquisadores também descobriram que, em muitos casos, as etapas exibidas por um bot são Não relacionado à resposta que acabou por entregar.

“O que o sistema diz que está pensando não é necessariamente o que está pensando”, disse Aryo Pradipta Gema, pesquisador de IA da Universidade de Edimburgo e bolsista da Anthropic.