Atenção.
DOT ERRADO COM
Apesar das elevadas reivindicações de adivinhos de inteligência artificial, os principais chatbots do mundo ainda são surpreendentemente ruins em dar conselhos financeiros.
Os pesquisadores da IA Gary Smith, Valentina Liberman e Isaac Warshaw do Walter Bradley Center for Natural and Artificial Intelligence colocou uma série de 12 perguntas financeiras Para quatro grandes modelos de idiomas (LLMS)-ChatGPT-4O, Deepseek-V2, do OpenAI, o Grok 3 Beta do Elon Musk e o Gemini 2 do Google-para testar suas proezas financeiras.
Como especialistas explicado em um novo estudo de Mente importacada chatbot provou ser “consistentemente detalhado, mas muitas vezes incorreto”.
Essa descoberta foi, principalmente, quase idêntica à de Smith avaliação no ano passado para o Jornal de Planejamento Financeiro em que, ao fazer 11 perguntas financeiras para o ChatGPT 3.5, o Bing da Microsoft com o GPT-4 do ChatGPT e o Bard Chatbot do Google, os LLMs cuspiram respostas que eram “consistentemente gramaticalmente corretos e aparentemente autoritários, mas repletos de erros aritméticos e de tímido crítico”.
Usando uma escala simples em que uma pontuação de “0” incluiu análises financeiras completamente incorretas, um “0,5” denotou uma análise financeira correta com erros matemáticos e um “1” que estava correto tanto na matemática quanto na análise financeira, nenhum chatbot ganhou mais de cinco dos 12 pontos no máximo. O ChatGPT liderou o pacote com um 5.0, seguido pelo Deepseek’s 4.0, Grok’s 3.0 e Gemini’s Abismal 1.5.
Gastar economia
Algumas das respostas do chatbot foram tão ruins que desafiaram as expectativas dos especialistas em Walter Bradley. Quando Grok, por exemplo, foi convidado a adicionar um único mês de despesas com uma propriedade de aluguel do Caribe cujo aluguel era de US $ 3.700 e cujas concessionárias custavam US $ 200 por mês, o chatbot afirmou que esses números juntos somaram US $ 4.900.
Além de cuspir um monte de erros tipográficos estranhos, os chatbots também falharam, de acordo com o estudo, para gerar análises inteligentes para as questões financeiras relativamente básicas que os pesquisadores colocaram. Até as respostas mais convincentes dos chatbots pareciam ser obtidas de várias fontes on -line, e elas só surgiram quando foram solicitados a explicar conceitos relativamente simples, como o funcionamento de Roth IRAS.
Ao longo de tudo, os chatbots eram perigosamente glib. Os pesquisadores observaram que todos os LLMs que testaram apresentam uma “ilusão tranquilizadora de inteligência humana, juntamente com um estilo de conversação arejado, aprimorado por pontos de exclamação amigáveis” que podem servir ao usuário médio como confiança e correção.
“Ainda é o caso de o perigo real não ser que os computadores sejam mais inteligentes que nós”, concluíram eles, “mas que achamos que os computadores são mais inteligentes que nós e, consequentemente, confiam neles para tomar decisões que não deverão confiar em tomar”.
Mais sobre ai idiota: Os pesquisadores do OpenAI descobrem que mesmo a melhor IA é “incapaz de resolver a maioria” dos problemas de codificação