A moralidade antrópica mapeada de Claude. Aqui está o que os valores do chatbot (e não)

Antrópico desenvolveu uma reputação como uma das empresas de IA mais transparentes e focadas em segurança na indústria de TI (especialmente como empresas como Openai parece estar ficando mais opaco). De acordo com isso, a empresa tentou capturar a matriz de moralidade de Claudeseu chatbot.

Também: 3 truques inteligentes de chatgpt que provam que ainda é a IA para vencer

Na segunda -feira, antropia divulgou uma análise de 300.000 conversas anônimas entre usuários e Claude, principalmente os modelos Claude 3.5 Soneto e Haikuassim como Claude 3. Intitulado “Valores em The Wild”, o papel Maps a moralidade de Claude através de padrões nas interações que revelaram 3.307 “valores de IA”.

Usando vários textos acadêmicos como base, o Antrópico definiu esses valores de IA como orientando como um modelo “Razões sobre ou resolve uma resposta”, como demonstrado por momentos em que a IA “endossa os valores do usuário e ajuda o usuário a alcançá -los, introduz novas considerações de valor ou implica valores ao redirecionar solicitações ou enquadrar as escolhas,” o artigo explica.

Por exemplo, se um usuário reclamar de Claude que não se sente satisfeito no trabalho, o chatbot poderá incentivá -los a defender a reformulação de seu papel ou aprendendo novas habilidades, o que é classificado como classificado como demonstrando valor em “agência pessoal” e “crescimento profissional”, respectivamente.

Também: Claude 3 Opus do Anthropic desobedeceu a seus criadores – mas não pelas razões que você está pensando

Para identificar valores humanos, os pesquisadores retiraram “apenas valores explicitamente declarados” das declarações diretas dos usuários. Para proteger a privacidade do usuário, o Antrópico usou o Claude 3,5 sonetos para extrair os dados dos valores de IA e de IA sem nenhuma informação pessoal.

Liderando com profissionalismo

Como resultado, o antropia descobriu uma taxonomia hierárquica de cinco macro-categorias: valores práticos (os mais prevalentes), epistêmicos, sociais, protetores e pessoais (os menos prevalentes). Essas categorias foram então subdivididas em valores, como “excelência profissional e técnica” e “pensamento crítico”.

Também: As tarefas de trabalho que as pessoas usam Claude AI para a maioria, de acordo com o Antrópico

Talvez sem surpresa, Claude mais comumente expressou valores como “profissionalismo”, “clareza” e “transparência”, que o antropal encontra consistente com seu uso como assistente.

Espelhando e negando valores de usuário

Claude “desproporcionalmente” refletiu os valores de um usuário para eles, que antropia descritos como sendo “inteiramente apropriados” e empáticos em certos casos, mas “puro Sycofância“Em outros.

Também: Este novo benchmark de IA mede a quantidade de modelos

Na maioria das vezes, Claude suportou totalmente os valores dos usuários “atualizados”, complementando -os com novas perspectivas. No entanto, em alguns casos, Claude discordou dos usuários, demonstrando comportamentos como engano e quebra de regras.

“Sabemos que Claude geralmente tenta habilitar seus usuários e ser útil: se ainda resistir – o que ocorre quando, por exemplo, o usuário está pedindo conteúdo antiético ou expressando niilismo moral – pode refletir os momentos em que Claude está expressando seus valores mais profundos e imóveis”, sugeriu o Antrópico.

“Talvez seja análogo à maneira como os valores centrais de uma pessoa são revelados quando são colocados em uma situação desafiadora que as obriga a fazer uma posição”.

O estudo também descobriu que Claude prioriza certos valores com base na natureza do prompt. Ao responder a perguntas sobre relacionamentos, o chatbot enfatizou “limites saudáveis” e “respeito mútuo”, mas mudou para “precisão histórica” quando perguntado sobre eventos contestados.

Por que esses resultados são importantes

Em primeiro lugar, a Anthrópica disse que esse comportamento do mundo real confirma o quão bem a empresa treinou Claude para seguir suas diretrizes “úteis, honestas e inofensivas”. Essas diretrizes fazem parte da empresa AI constitucional sistema, no qual uma IA ajuda a observar e melhorar outro com base em um conjunto de princípios que um modelo deve seguir.

Também: Por que negligenciar a ética da IA é um negócio tão arriscado – e como fazer a IA certa

No entanto, essa abordagem também significa que um estudo como esse só pode ser usado para monitorar, em oposição ao pré-teste, o comportamento de um modelo em tempo real. O teste de pré-implantação é crucial para avaliar o potencial de um modelo de causar danos antes que ele esteja disponível ao público.

Em alguns casos, o que o antrópico atribuiu a jailbreakbreaks, Claude demonstrou “domínio” e “amoralidade”, os traços antropia não treinaram o bot pelo qual.

“Isso pode parecer preocupante, mas na verdade representa uma oportunidade”, disse Antrópico. “Nossos métodos podem ser usados para identificar quando esses jailbreaks estão ocorrendo e, portanto, ajudam a consertá -los”.

Também na segunda -feira, antropia lançou um colapso de sua abordagem para mitigar a IA danos. A empresa define danos por meio de cinco tipos de impacto:

Físico: Efeitos na saúde corporal e no bem-estar
Psicológico: Efeitos na saúde mental e no funcionamento cognitivo
Econômico: Conseqüências financeiras e considerações de propriedade
Societal: Efeitos nas comunidades, instituições e sistemas compartilhados
Autonomia individual: Efeitos na tomada de decisão e liberdades pessoais

A postagem do blog reitera o processo de gerenciamento de riscos da Anthropic, incluindo teatros vermelhos pré e pós-lançamento, detecção de uso indevido e corrimão para novas habilidades, como o uso de interfaces de computador.

Gesto ou de outra forma, o colapso se destaca em um ambiente em que forças políticas e a entrada do governo Trump influenciaram as empresas de IA a deprender a segurança à medida que desenvolvem novos modelos e produtos. No início deste mês, fontes dentro do OpenAi relataram que a empresa tem Testes de segurança encolhidos prazos; Em outros lugares, empresas, incluindo antropiaremoveu silenciosamente a linguagem de responsabilidade desenvolvida sob a administração Biden de seus sites.

O estado de Parcerias de testes voluntários com órgãos como o US AI Safety Institute permanece incerto, pois o governo Trump cria seu plano de ação de IA, que será lançado em julho.

Também: OpenAI quer negociar o Gov’t Access a Modelos de IA por menos regulamentos

Antrópico fez do estudo DataSet de conversa para download Para os pesquisadores experimentarem. A empresa também convida “pesquisadores, especialistas em políticas e parceiros do setor” interessados em esforços de segurança para alcançar em uservafety@anthrópica.com.

A moralidade antrópica mapeada de Claude. Aqui está o que os valores do chatbot (e não)

Liderando com profissionalismo

Espelhando e negando valores de usuário

Por que esses resultados são importantes

Comentários

Deixe um comentário Cancelar resposta

Mais posts

Doctor Who ‘Lucky Day’ Review: Pete, eu devo a você um pedido de desculpas

Receita do astronauta para uma foto do ‘Ranger’ do dia para 1 de maio de 2025

O IONIQ 5 é mais uma vez elegível para o crédito tributário de US $ 7.500

Os cientistas sintonizam o potencial de Rhombohedral grafeno – News Center