A plataforma difere das abordagens de benchmarking existentes através de seu foco na avaliação de ponta a ponta dos agentes de IA em ambientes dinâmicos de TI. De acordo com a IBM, os referências atuais da indústria normalmente se concentram em recursos estreitos, como “detecção de anomalia estática, análise de injeção de falhas codificadas com codificação rígida”, que não capturam adequadamente a complexidade das operações de TI corporativa.
Avaliação específica de domínio com um sistema de crédito parcial
Um aspecto notável da estrutura do iTbench são suas métricas de avaliação centradas no domínio, adaptadas a funções corporativas específicas, o que poderia fornecer uma avaliação mais sutil do que os benchmarks de IA genéricos.
“As métricas de avaliação são centradas no domínio, adaptadas às necessidades específicas de SRES, CISOs e FINOPs”, explicou Sow. “Por exemplo, as tarefas SRE se concentram no diagnóstico de falhas, verificando o quão bem um agente de IA pode encontrar onde um problema começou e como se espalhou e a mitigação, com que rapidez os problemas são resolvidos.”