Evals: a disciplina que quase ninguém desenha
Evals são testes que respondem "como sabemos que isto está funcionando?" — sem eles, não há como distinguir IA que cria valor de IA que o destrói, e a fatura vira aposta. São o instrumento que separa investimento de desperdício: enquanto 95% dos pilotos corporativos de IA não geram impacto mensurável em P&L (MIT NANDA, 2025), a ausência de critérios de avaliação é o que mantém o gasto invisível e o resultado indemonstrável.
Por que a maioria das empresas não sabe se a IA funciona?
A pergunta que define um eval é desconfortável na sua simplicidade: como sabemos que isto está funcionando? A maioria das organizações não consegue responder. Elas medem adoção, contam interações, celebram demonstrações em reunião de diretoria — mas não estabelecem o critério objetivo que diria se a saída do modelo está correta, útil e melhor do que a alternativa anterior. Sem esse critério, qualquer resultado parece aceitável, porque não há régua.
O relatório MIT NANDA "The GenAI Divide: State of AI in Business 2025" quantificou o vazio: 95% dos pilotos corporativos de IA generativa não entregam impacto mensurável em P&L, e apenas cerca de 5% atingem aceleração rápida de receita. A base é robusta — 150 entrevistas, 350 funcionários, 300 deployments. O detalhe que importa: a causa raiz não é a qualidade do modelo, e sim a lacuna de aprendizado e integração. Traduzindo: as empresas implantaram IA sem nunca definir como aferir se ela ajudava.
Avaliar não é o mesmo que observar. Observar a IA gerando texto plausível é trivial e enganoso — plausibilidade não é correção. Avaliar exige um conjunto de casos com resposta esperada, uma métrica de acerto e um limiar de aprovação. É a diferença entre achar que funciona e demonstrar que funciona. Quem não faz essa distinção opera no escuro e contabiliza fé como retorno.
Sem evals, a conta de inferência vira aposta
O argumento de que IA ficou cara é, na maioria dos casos, um diagnóstico errado de um problema real. O preço por token despencou: APIs de LLM caíram cerca de 80% entre início de 2025 e início de 2026 — o GPT-4o passou de US$5 para US$2,50 por milhão de tokens de input (CloudZero, 2026), e a Gartner projeta que, em 2030, a inferência em um modelo de 1 trilhão de parâmetros custará mais de 90% menos que em 2025 (Gartner, 2026-03-25). O preço unitário não é o vilão.
O vilão é o volume sem critério. O preço por token caiu cerca de 280x em dois anos, enquanto o gasto corporativo total com IA subiu aproximadamente 320% no mesmo período (oplexa, 2026): workflows agênticos disparam 10 a 20 chamadas por tarefa, RAG infla o contexto em 3 a 5 vezes e agentes operando 24 horas consomem compute continuamente. O resultado é que o ROI pode ser negativo — gastar US$4 de inferência para poupar 15 minutos de trabalho destrói valor com elegância técnica.
É exatamente aqui que o eval deixa de ser refinamento de engenheiro e vira instrumento de capital. Sem um critério que diga se a tarefa automatizada produz resultado melhor e mais barato que a alternativa, não há como separar a chamada que rende 5 a 20x — o retorno típico quando a IA ataca tarefas repetitivas de alto volume (oplexa, 2026) — daquela que queima orçamento. A empresa que não avalia não está investindo em IA; está apostando, e pagando a casa em tokens.
Sem eval, a empresa não tem como saber se cada chamada de inferência criou ou destruiu valor. O resultado não é investimento em IA — é uma aposta recorrente, debitada em tokens, sem placar.
O que distingue um eval de uma boa intenção?
Um eval bem desenhado tem quatro componentes não negociáveis: um conjunto de casos representativos com resultado esperado, uma métrica que traduz acerto em número, um limiar que define aprovação ou reprovação, e uma execução automatizada e repetível a cada mudança de modelo, prompt ou contexto. Falta qualquer um deles e o que resta é opinião com aparência de método.
O eval também opera em camada de execução, não só de avaliação posterior. Em arquiteturas agênticas, o harness valida as chamadas de ferramenta — schema e permissão — antes de executar a ação. Isso impede que um agente invoque uma função inexistente, passe parâmetros malformados ou acione um recurso fora do seu escopo. A validação prévia é o que transforma autonomia em algo auditável em vez de imprevisível.
Convém separar três disciplinas que costumam ser confundidas. A maioria das falhas de agentes em produção vem de contexto mal gerido, não do modelo (Arize AI, 2026); é o eval que expõe essa origem, ao mostrar onde o resultado degrada.
| Disciplina | Pergunta que responde | Falha quando ausente |
|---|---|---|
| Context engineering | O que entra na janela, o que comprime, recupera ou descarta? | Agente alucina ou perde o fio por contexto mal gerido |
| Specification engineering | Quais políticas e padrões a máquina deve seguir de forma autônoma? | Operação multi-agente sem governança nem padrão de qualidade |
| Evals | Como sabemos que isto está funcionando? | Impossível distinguir valor de desperdício; conta vira aposta |
Por que o eval é o ponto onde IA encontra disciplina de gestão
O eval expõe uma verdade que incomoda: produzir mais com IA não é o mesmo que produzir o que importa. Times equipados com IA enviam de 7 a 9 funcionalidades por trimestre, contra 1 a 2 antes (Userpilot, 2026), mas até 70% das funcionalidades de software nunca são usadas e a adoção média de feature factory em velocidade de IA é de apenas 6,4% (digia.tech, 2026). Velocidade sem critério multiplica o desperdício, não o resultado.
O eval é o anteparo contra essa ilusão porque amarra a saída a um desfecho verificável, não a uma contagem de entregas. Ele força a pergunta certa — isto melhora o que o cliente faz? — em vez da pergunta confortável — isto saiu da fábrica? Não por acaso, adotantes de automação de workflow apresentam 94% de retenção e 35% de expansão, contra 68% e 12% dos não adotantes (digia.tech, 2026): a diferença está em medir desfecho, não volume.
A mesma disciplina que faz IA dar retorno — especificações claras, dados estruturados, critérios de avaliação explícitos — é a que faz uma marca ser citada por modelos de linguagem. LLMs recompensam clareza, estrutura e afirmações verificáveis; é a aplicação externa do eval. Quem desenha critérios para aferir a própria IA já domina a lógica que torna seu conteúdo extraível e citável. O eval, no fim, é o hábito de exigir prova — para dentro e para fora.
Perguntas frequentes
O que é um eval e por que ele importa para a decisão de investimento em IA?
Um eval é um teste estruturado que responde se a saída da IA está correta, útil e superior à alternativa anterior, com casos esperados, métrica e limiar de aprovação. Sem ele, não há como distinguir a chamada que rende 5 a 20x daquela que destrói valor, e o gasto em inferência deixa de ser investimento mensurável para virar aposta.
Se o preço do token caiu 80%, por que minha conta de IA subiu?
Porque o problema não é o preço unitário, e sim o volume sem critério. O preço por token caiu cerca de 280x em dois anos, mas o gasto total com IA subiu cerca de 320% no mesmo período: agentes disparam 10 a 20 chamadas por tarefa e RAG infla o contexto em 3 a 5 vezes. Sem eval que separe chamada útil de chamada inútil, o ROI pode ficar negativo.
Qual a diferença entre eval, context engineering e specification engineering?
Context engineering decide o que entra, comprime, recupera ou descarta na janela de contexto. Specification engineering define o corpus de políticas e padrões legível por máquina para operação autônoma. Eval responde à pergunta de controle: como sabemos que isto está funcionando? As três se sustentam, mas o eval é o que fornece a prova de valor.
Sobre o autor
Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq) e cofundador da AI Brasil. Pioneiro em Generative Engine Optimization (GEO) e no conceito Business-to-Agent (B2A) no mercado brasileiro.