Como construir um benchmark melhor de IA

Os limites dos testes tradicionais

Se as empresas de IA demoraram a responder ao crescente fracasso dos benchmarks, é parcialmente porque a abordagem de pontuação de teste tem sido tão eficaz há tanto tempo.

Um dos maiores sucessos iniciais da IA ​​contemporânea foi o Imagenet Challenge, uma espécie de antecedente para os benchmarks contemporâneos. Lançado em 2010 como um desafio aberto aos pesquisadores, o banco de dados continha mais de 3 milhões de imagens para os sistemas de IA categorizarem em 1.000 classes diferentes.

Fundamentalmente, o teste foi completamente agnóstico aos métodos, e qualquer algoritmo de sucesso rapidamente ganhou credibilidade, independentemente de como funcionou. Quando um algoritmo chamado Alexnet rompeu em 2012, com uma forma então não convencional de treinamento de GPU, tornou -se um dos resultados fundamentais da IA ​​moderna. Poucos teriam adivinhado antecipadamente que as redes neurais convolucionais de Alexnet seriam o segredo para desbloquear o reconhecimento da imagem – mas depois que ela marcou bem, ninguém se atreveu a contestá -lo. (Um dos desenvolvedores de Alexnet, Ilya Sutskevercontinuaria cofundando o Openai.)

Uma grande parte do que tornou esse desafio tão eficaz foi que havia pouca diferença prática entre o desafio de classificação de objetos da Imagenet e o processo real de pedir a um computador para reconhecer uma imagem. Mesmo que houvesse disputas sobre métodos, ninguém duvidava que o modelo de maior pontuação tenha uma vantagem quando implantado em um sistema de reconhecimento de imagem real.

Mas, nos 12 anos desde então, os pesquisadores de IA aplicaram a mesma abordagem agnóstica de métodos a tarefas cada vez mais gerais. O SWE-Bench é comumente usado como proxy para uma capacidade de codificação mais ampla, enquanto outros parâmetros de referência no estilo de exame geralmente se destacam à capacidade de raciocínio. Esse amplo escopo torna difícil ser rigoroso sobre o que uma medidas específicas de referência – que, por sua vez, dificulta o uso das descobertas com responsabilidade.

Onde as coisas quebram

Anka Reuel, uma estudante de doutorado que tem se concentrado no problema de referência como parte de sua pesquisa em Stanford, ficou convencido de que o problema de avaliação é o resultado desse esforço para a generalidade. “Mudamos de modelos específicos de tarefas para modelos de uso geral”, diz Reuel. “Não se trata mais de uma única tarefa, mas um monte de tarefas, então a avaliação se torna mais difícil.”

Como os Jacobs da Universidade de Michigan, Reuel acha que “a principal questão com benchmarks é a validade, ainda mais do que a implementação prática”, observando: “É aí que muitas coisas se quebram”. Para uma tarefa tão complicada quanto a codificação, por exemplo, é quase impossível incorporar todos os cenários possíveis ao seu conjunto de problemas. Como resultado, é difícil avaliar se um modelo está pontuando melhor porque é mais habilidoso na codificação ou porque manipulou com mais eficácia o conjunto de problemas. E com tanta pressão sobre os desenvolvedores para obter pontuações recordes, são difíceis de resistir atalhos.

Para os desenvolvedores, a esperança é que o sucesso em muitos benchmarks específicos somará um modelo geralmente capaz. Mas as técnicas de IA agêntica significam que um único sistema de IA pode abranger uma variedade complexa de modelos diferentes, dificultando a avaliação se a melhoria em uma tarefa específica levará à generalização. “Há muito mais botões que você pode girar”, diz Sayash Kapoor, cientista da computação de Princeton e um crítico de destaque de práticas desleixadas na indústria de IA. “Quando se trata de agentes, eles desistiram das melhores práticas de avaliação”.