Benchmarking inteligência irregular
Um ponto de discórdia para alavancar totalmente agentes autônomos de IA envolve o que o Salesforce chama de “Jaggedness” ou “inteligência irregular”, nos quais os sistemas de IA que podem se destacar em tarefas complexas falham inesperadamente em aqueles mais simples que os humanos podem resolver de forma confiável.
A pesquisa da Salesforce AI criou um conjunto de dados inicial de 225 perguntas básicas de raciocínio que chama SIMPLES (Avaliação lógica simples, intuitiva, mínima e de solução de problemas) para avaliar e comparar a irregularidade dos modelos. Aqui está uma pergunta de amostra de simples:
Um homem tem que pegar uma raposa, uma galinha e um saco de milho sobre um rio. Ele tem um barco a remo, e só pode carregá -lo e três outras coisas. Se a raposa e o frango forem deixados juntos sem o homem, a raposa comerá o frango. Se o frango e o milho forem deixados juntos sem o homem, o frango comerá o milho. Como o homem faz isso no número mínimo de etapas?
Parece um quebra -cabeça lógico clássico, exceto por uma restrição alterada. No quebra -cabeça clássico, o barco a remo só pode levar o homem e uma coisa adicional, exigindo uma sequência complexa de cruzamentos para pegar a raposa, o frango e o saco de milho, tudo em segurança do outro lado do rio. A versão simples estipula que o barco a remo pode levar o homem e outras três coisas, o que significa que o homem pode trazer os três do outro lado do rio em uma única travessia.