Chatgpt está ficando mais inteligente, mas suas alucinações estão em espiral

Os mais recentes modelos de IA do OpenAI, GPT O3 e O4-Mini, alucinam significativamente mais frequentemente do que seus antecessores
O aumento da complexidade dos modelos pode estar levando a imprecisões mais confiantes
As altas taxas de erro levantam preocupações sobre a confiabilidade da IA em aplicativos do mundo real

Pessoas brilhantes, mas não confiáveis, são um item básico de ficção (e história). A mesma correlação também pode ser aplicada à IA, com base em uma investigação por Openai e compartilhado por The New York Times. Alucinações, fatos imaginários e mentiras diretas fazem parte dos chatbots da IA desde que foram criados. As melhorias nos modelos teoricamente devem reduzir a frequência com que aparecem.

Os mais recentes modelos principal do Openai, GPT O3 e O4-Mini, devem imitar a lógica humana. Ao contrário de seus antecessores, que se concentraram principalmente na geração de texto fluente, o Openai construiu GPT O3 e O4-Mini para pensar nas coisas através do passo a passo. O Openai se vangloria de que a O1 poderia corresponder ou exceder o desempenho de estudantes de doutorado em química, biologia e matemática. Mas o relatório do Openai destaca alguns resultados angustiantes para quem toma Chatgpt respostas pelo valor nominal.

O OpenAI descobriu que o modelo GPT O3 incorporava alucinações em um terço de um teste de referência envolvendo figuras públicas. Isso é o dobro da taxa de erro do modelo O1 anterior do ano passado. O modelo O4-Mini mais compacto teve um desempenho ainda pior, alucinando 48% das tarefas semelhantes.

Quando testados em perguntas de conhecimento mais gerais para a referência simples da SimpleQA, alucinações entrem em torno de 51% das respostas para O3 e 79% para O4-mini. Isso não é apenas um pouco de barulho no sistema; Essa é uma crise de identidade completa. Você pensaria que algo comercializado como um sistema de raciocínio veria pelo menos sua própria lógica antes de fabricar uma resposta, mas simplesmente não é o caso.

Uma teoria que faz as rodadas na comunidade de pesquisa da IA é que, quanto mais raciocínio um modelo tenta fazer, mais chances de sair dos trilhos. Diferentemente dos modelos mais simples que aderem às previsões de alta confiança, os modelos de raciocínio se aventuram no território, onde devem avaliar vários caminhos possíveis, conectar fatos díspares e improvisar essencialmente. E improvisar em torno dos fatos também é conhecido como inventar as coisas.

Funcionamento fictício

A correlação não é causação, e o OpenAi disse ao Vezes que o aumento das alucinações pode não ser porque os modelos de raciocínio são inerentemente piores. Em vez disso, eles poderiam ser simplesmente mais detalhados e aventureiros em suas respostas. Como os novos modelos não estão apenas repetindo fatos previsíveis, mas especulando sobre possibilidades, a linha entre teoria e fato fabricada pode ficar embaçada para a IA. Infelizmente, algumas dessas possibilidades são totalmente desalinhadas da realidade.

Ainda assim, mais alucinações são o oposto do que openi ou seus rivais como Google e desejo antrópico de seus modelos mais avançados. Chamar assistentes de AI Chatbots e copilotes implica que serão úteis, não perigosos. Os advogados já tiveram problemas por usar o ChatGPT e não perceber citações judiciais imaginárias; Quem sabe quantos desses erros causaram problemas em circunstâncias menos altas?

As oportunidades de uma alucinação causar um problema para um usuário estão se expandindo rapidamente quando os sistemas de IA começam a ser lançados em salas de aula, escritórios, hospitais e agências governamentais. A IA sofisticada pode ajudar a redigir as solicitações de emprego, a resolver problemas de cobrança ou analisar planilhas, mas o paradoxo é que quanto mais útil a IA se torna, menos espaço há um erro.

Você não pode afirmar economizar tempo e esforço para as pessoas, se elas precisarem gastar tanto tempo, verificando tudo o que você diz. Não que esses modelos não sejam impressionantes. O GPT O3 demonstrou alguns feitos incríveis de codificação e lógica. Pode até superar muitos humanos em alguns aspectos. O problema é que, no momento em que decide que Abraham Lincoln sediou um podcast ou que a água ferve a 80 ° F, a ilusão de confiabilidade quebra.

Até que esses problemas sejam resolvidos, você deve receber qualquer resposta de um modelo de IA com uma colher de sal. Às vezes, o chatgpt é um pouco como aquele cara irritante em muitas reuniões que todos participamos; Cheia de confiança no absurdo total.

Chatgpt está ficando mais inteligente, mas suas alucinações estão em espiral

Mais posts

O zoológico de Londres descobre centenas de bobinas antigas de filmes com ‘Zoo Oddities’ e Celebridades Animais

O chefe de mídia de Maga, Kari Lake

Cisco Systems anuncia chip de computação quântica

Missão de Energia Limpa sopra como Hornsea 4 eólico cancelado