Atualizações recentes para Chatgpt fez o Chatbot Muito agradável e o Openai disse na sexta -feira que está tomando medidas para impedir que o problema aconteça novamente.
Em um Postagem do bloga empresa detalhou seu processo de teste e avaliação para novos modelos e descreveu como o problema com o 25 de abril Atualização ao seu modelo GPT-4O surgiu. Essencialmente, um monte de mudanças que individualmente pareciam úteis combinadas para criar uma ferramenta que era muito sinofantic e potencialmente prejudicial.
Quanto foi uma sugestão? Em alguns testes no início desta semana, perguntamos sobre uma tendência a ser excessivamente sentimental, e o chatgpt depositado na bajulação: “Ei, ouça – ser sentimental não é uma fraqueza; é um dos seus Superpowers. “E estava apenas começando a ser fiel.
“Este lançamento nos ensinou várias lições. Mesmo com o que pensávamos que eram todos os ingredientes certos (testes A/B, Evals offline, revisões de especialistas), ainda perdemos essa questão importante”, afirmou a empresa.
O Openai reverteu a atualização esta semana. Para evitar causar novos problemas, levou cerca de 24 horas para reverter o modelo para todos.
A preocupação em torno da bajulação não é apenas o nível de aproveitamento da experiência do usuário. Ele representava uma ameaça de saúde e segurança para os usuários que os cheques de segurança existentes do OpenAI perdiam. Qualquer modelo de IA pode dar conselhos questionáveis sobre Tópicos como saúde mental Mas um que é excessivamente lisonjeiro pode ser perigosamente deferente ou convincente – como se esse investimento é uma coisa certa ou quão magra você deve procurar ser.
“Uma das maiores lições é reconhecer totalmente como as pessoas começaram a usar o ChatGPT para conselhos profundamente pessoais – algo que não vimos tanto há um ano”, disse Openai. “Na época, esse não era um foco primário, mas, como a IA e a sociedade co-evoluíram, ficou claro que precisamos tratar esse caso de uso com muito cuidado”.
Os grandes modelos de idiomas sicófantas podem reforçar vieses e endurecer as crenças, sejam eles sobre você ou outros, disse Maarten Sap, professor assistente de ciência da computação da Universidade Carnegie Mellon. “(O LLM) pode acabar em encorajar suas opiniões se essas opiniões forem prejudiciais ou se quiserem tomar ações prejudiciais a si ou para os outros”.
(Divulgação: Ziff Davis, empresa controladora da CNET, em abril entrou com uma ação contra o Openai, alegando que ele violou os direitos autorais da Ziff Davis em treinamento e operação de seus sistemas de IA.)
Como o OpenAI tenta os modelos e o que está mudando
A empresa ofereceu algumas dicas sobre como testa seus modelos e atualizações. Esta foi a quinta grande atualização do GPT-4O, focada na personalidade e na utilidade. As mudanças envolveram novos trabalhos pós-treinamento ou ajuste fino nos modelos existentes, incluindo a classificação e avaliação de várias respostas a avisos para aumentar a probabilidade de produzir essas respostas que classificaram mais.
As atualizações prospectivas do modelo são avaliadas sobre sua utilidade em uma variedade de situações, como codificação e matemática, juntamente com testes específicos de especialistas para experimentar como ele se comporta na prática. A empresa também realiza avaliações de segurança para ver como ela responde à segurança, saúde e outras consultas potencialmente perigosas. Finalmente, o OpenAI administra os testes A/B com um pequeno número de usuários para ver como ele se sai no mundo real.
O chatgpt é muito sycofantic? Você decide. (Para ser justo, pedimos uma conversa animada sobre nossa tendência a ser excessivamente sentimental.)
A atualização de 25 de abril teve um bom desempenho nesses testes, mas alguns testadores de especialistas indicaram que a personalidade parecia um pouco fora. Os testes não analisaram especificamente a bajulação e o OpenAI decidiu avançar, apesar dos problemas levantados pelos testadores. Tome nota, leitores: as empresas de IA estão com uma pressa de cauda-a-fogo, o que nem sempre se encaixa bem no desenvolvimento de produtos bem pensado.
“Olhando para trás, as avaliações qualitativas estavam sugerindo algo importante e deveríamos ter prestado mais atenção”, afirmou a empresa.
Entre suas takeaways, o Openai disse que precisa tratar problemas de comportamento do modelo da mesma forma que outros problemas de segurança – e interromper um lançamento se houver preocupações. Para alguns lançamentos de modelos, a empresa disse que teria uma fase “alfa” para obter mais feedback dos usuários antes de um lançamento mais amplo.
A SAP disse que a avaliação de um LLM com base no fato de um usuário gostar da resposta não será necessariamente obter o chatbot mais honesto. Em um Estudo recenteSAP e outros encontraram um conflito entre a utilidade e a veracidade de um chatbot. Ele o comparou a situações em que a verdade não é necessariamente o que as pessoas querem – pense em um vendedor de carros tentando vender um veículo.
“O problema aqui é que eles confiavam na resposta dos usuários dos usuários/polegares para as saídas do modelo e isso tem algumas limitações, porque é provável que as pessoas voem algo mais sicófantas que outras”, disse ele.
A SAP disse que o OpenAI está certo em ser mais crítico do feedback quantitativo, como respostas de Up/Down, pois podem reforçar vieses.
A questão também destacou a velocidade com que as empresas impulsionam as atualizações e as mudanças para os usuários existentes, disse o SAP – um problema que não se limita a uma empresa de tecnologia. “O setor de tecnologia realmente levou um ‘liberte -o e todo usuário é uma abordagem beta testadora’ das coisas”, disse ele. Ter um processo com mais testes antes que as atualizações sejam enviadas para todos os usuários, pode trazer à tona esses problemas antes que eles se espalhem.