
Antrópico desenvolveu uma reputação como uma das empresas de IA mais transparentes e focadas em segurança na indústria de TI (especialmente como empresas como Openai parece estar ficando mais opaco). De acordo com isso, a empresa tentou capturar a matriz de moralidade de Claudeseu chatbot.
Também: 3 truques inteligentes de chatgpt que provam que ainda é a IA para vencer
Na segunda -feira, antropia divulgou uma análise de 300.000 conversas anônimas entre usuários e Claude, principalmente os modelos Claude 3.5 Soneto e Haikuassim como Claude 3. Intitulado “Valores em The Wild”, o papel Maps a moralidade de Claude através de padrões nas interações que revelaram 3.307 “valores de IA”.
Usando vários textos acadêmicos como base, o Antrópico definiu esses valores de IA como orientando como um modelo “Razões sobre ou resolve uma resposta”, como demonstrado por momentos em que a IA “endossa os valores do usuário e ajuda o usuário a alcançá -los, introduz novas considerações de valor ou implica valores ao redirecionar solicitações ou enquadrar as escolhas,” o artigo explica.
Por exemplo, se um usuário reclamar de Claude que não se sente satisfeito no trabalho, o chatbot poderá incentivá -los a defender a reformulação de seu papel ou aprendendo novas habilidades, o que é classificado como classificado como demonstrando valor em “agência pessoal” e “crescimento profissional”, respectivamente.
Para identificar valores humanos, os pesquisadores retiraram “apenas valores explicitamente declarados” das declarações diretas dos usuários. Para proteger a privacidade do usuário, o Antrópico usou o Claude 3,5 sonetos para extrair os dados dos valores de IA e de IA sem nenhuma informação pessoal.
Liderando com profissionalismo
Como resultado, o antropia descobriu uma taxonomia hierárquica de cinco macro-categorias: valores práticos (os mais prevalentes), epistêmicos, sociais, protetores e pessoais (os menos prevalentes). Essas categorias foram então subdivididas em valores, como “excelência profissional e técnica” e “pensamento crítico”.
Também: As tarefas de trabalho que as pessoas usam Claude AI para a maioria, de acordo com o Antrópico
Talvez sem surpresa, Claude mais comumente expressou valores como “profissionalismo”, “clareza” e “transparência”, que o antropal encontra consistente com seu uso como assistente.
Espelhando e negando valores de usuário
Claude “desproporcionalmente” refletiu os valores de um usuário para eles, que antropia descritos como sendo “inteiramente apropriados” e empáticos em certos casos, mas “puro Sycofância“Em outros.
Também: Este novo benchmark de IA mede a quantidade de modelos
Na maioria das vezes, Claude suportou totalmente os valores dos usuários “atualizados”, complementando -os com novas perspectivas. No entanto, em alguns casos, Claude discordou dos usuários, demonstrando comportamentos como engano e quebra de regras.
“Sabemos que Claude geralmente tenta habilitar seus usuários e ser útil: se ainda resistir – o que ocorre quando, por exemplo, o usuário está pedindo conteúdo antiético ou expressando niilismo moral – pode refletir os momentos em que Claude está expressando seus valores mais profundos e imóveis”, sugeriu o Antrópico.
“Talvez seja análogo à maneira como os valores centrais de uma pessoa são revelados quando são colocados em uma situação desafiadora que as obriga a fazer uma posição”.
O estudo também descobriu que Claude prioriza certos valores com base na natureza do prompt. Ao responder a perguntas sobre relacionamentos, o chatbot enfatizou “limites saudáveis” e “respeito mútuo”, mas mudou para “precisão histórica” quando perguntado sobre eventos contestados.
Por que esses resultados são importantes
Em primeiro lugar, a Anthrópica disse que esse comportamento do mundo real confirma o quão bem a empresa treinou Claude para seguir suas diretrizes “úteis, honestas e inofensivas”. Essas diretrizes fazem parte da empresa AI constitucional sistema, no qual uma IA ajuda a observar e melhorar outro com base em um conjunto de princípios que um modelo deve seguir.
Também: Por que negligenciar a ética da IA é um negócio tão arriscado – e como fazer a IA certa
No entanto, essa abordagem também significa que um estudo como esse só pode ser usado para monitorar, em oposição ao pré-teste, o comportamento de um modelo em tempo real. O teste de pré-implantação é crucial para avaliar o potencial de um modelo de causar danos antes que ele esteja disponível ao público.
Em alguns casos, o que o antrópico atribuiu a jailbreakbreaks, Claude demonstrou “domínio” e “amoralidade”, os traços antropia não treinaram o bot pelo qual.
“Isso pode parecer preocupante, mas na verdade representa uma oportunidade”, disse Antrópico. “Nossos métodos podem ser usados para identificar quando esses jailbreaks estão ocorrendo e, portanto, ajudam a consertá -los”.
Também na segunda -feira, antropia lançou um colapso de sua abordagem para mitigar a IA danos. A empresa define danos por meio de cinco tipos de impacto:
- Físico: Efeitos na saúde corporal e no bem-estar
- Psicológico: Efeitos na saúde mental e no funcionamento cognitivo
- Econômico: Conseqüências financeiras e considerações de propriedade
- Societal: Efeitos nas comunidades, instituições e sistemas compartilhados
- Autonomia individual: Efeitos na tomada de decisão e liberdades pessoais
A postagem do blog reitera o processo de gerenciamento de riscos da Anthropic, incluindo teatros vermelhos pré e pós-lançamento, detecção de uso indevido e corrimão para novas habilidades, como o uso de interfaces de computador.
Gesto ou de outra forma, o colapso se destaca em um ambiente em que forças políticas e a entrada do governo Trump influenciaram as empresas de IA a deprender a segurança à medida que desenvolvem novos modelos e produtos. No início deste mês, fontes dentro do OpenAi relataram que a empresa tem Testes de segurança encolhidos prazos; Em outros lugares, empresas, incluindo antropiaremoveu silenciosamente a linguagem de responsabilidade desenvolvida sob a administração Biden de seus sites.
O estado de Parcerias de testes voluntários com órgãos como o US AI Safety Institute permanece incerto, pois o governo Trump cria seu plano de ação de IA, que será lançado em julho.
Também: OpenAI quer negociar o Gov’t Access a Modelos de IA por menos regulamentos
Antrópico fez do estudo DataSet de conversa para download Para os pesquisadores experimentarem. A empresa também convida “pesquisadores, especialistas em políticas e parceiros do setor” interessados em esforços de segurança para alcançar em uservafety@anthrópica.com.
Deixe um comentário