Pular para o conteúdo principal

O erro de cálculo por trás do “IA custa caro demais”

Por Alexandre Caramaschi, CEO da Brasil GEO · Junho 2026

O custo da IA não está no preço do token, que caiu cerca de 280x em dois anos enquanto o gasto corporativo subiu cerca de 320% pelo efeito volume. O gargalo real é a ausência de prática disciplinada — specs, evals, contexto bem gerido — e a ilusão de substituir funcionários por um prompt: por isso 95% dos pilotos não geram impacto mensurável em P&L, segundo o MIT.

Por que o preço do token é a métrica errada para julgar IA?

O argumento de que IA é cara demais costuma apoiar-se na conta de inferência. É uma leitura equivocada da física econômica do setor. Entre o início de 2025 e o início de 2026, os preços de API de modelos de linguagem caíram cerca de 80% — o GPT-4o, por exemplo, recuou de US$5 para US$2,50 por milhão de tokens de entrada (CloudZero, 2026). A Gartner projeta que rodar inferência em um modelo de 1 trilhão de parâmetros custará mais de 90% menos em 2030 do que em 2025 (Gartner, 2026-03-25). O insumo está ficando barato em ritmo acelerado.

A confusão nasce de tratar preço unitário e gasto total como sinônimos. O preço por token caiu cerca de 280x em dois anos; no mesmo período, o gasto corporativo total com IA subiu cerca de 320% (Silicon Data, 2026). Não há contradição: trata-se do paradoxo de Jevons. Quando um recurso fica mais eficiente e barato, o consumo agregado dispara em vez de cair. Workflows agênticos disparam de 10 a 20 chamadas por tarefa, pipelines de RAG inflam o contexto de 3 a 5 vezes e agentes operando 24 horas consomem compute de forma contínua (oplexa, 2026).

A conclusão operacional é direta: discutir o preço do token é discutir o termo errado da equação. O que determina a fatura não é quanto custa cada chamada, e sim quantas chamadas você dispara e com qual propósito.

Preço de token despencou cerca de 280x; o gasto subiu cerca de 320%. Isso não é IA cara — é o paradoxo de Jevons operando à plena luz.

O que o MIT realmente encontrou nos pilotos que falham

Se o preço caiu e o gasto cresceu, onde está o retorno? O relatório do MIT NANDA, "The GenAI Divide: State of AI in Business 2025", é categórico: 95% dos pilotos corporativos de IA generativa não entregam impacto mensurável em P&L, e apenas cerca de 5% atingem aceleração rápida de receita (Fortune, 2025-08-18). A base é robusta — 150 entrevistas, 350 funcionários e 300 deployments.

O dado decisivo é a causa raiz apontada. A falha não está na qualidade do modelo, e sim na lacuna de aprendizado e integração: as organizações não constroem o aparato que transforma capacidade bruta em resultado de negócio. Há ainda um erro de alocação flagrante — mais de 50% do orçamento vai para vendas e marketing, enquanto o maior ROI documentado está no back-office, em tarefas repetitivas de alto volume.

Ou seja, os 95% não fracassam por ter comprado o modelo errado ou por a inferência custar caro. Fracassam porque nenhuma quantidade de capacidade do modelo compensa a ausência de um sistema que a direcione. Comprar o motor não é o mesmo que ter o carro.

ROI negativo de US$4 para poupar 15 minutos: o problema é direcionamento, não preço

A diferença entre retorno positivo e negativo não está na ferramenta, e sim no alvo. Direcionar um agente para gastar US$4 de inferência a fim de poupar 15 minutos de uma tarefa de baixo valor produz ROI negativo — você pagou caro por um ganho que não se converte em P&L (oplexa, 2026). A mesma tecnologia, apontada para tarefas repetitivas de alto volume, entrega ROI típico de 5 a 20 vezes.

Isso reposiciona a pergunta executiva. Não é "a IA é cara?", mas "para onde estou apontando esse compute?". O custo só vira problema quando o direcionamento é frouxo: agentes 24/7 sem objetivo declarado, contexto inflado sem critério, chamadas multiplicadas para resolver problemas que não movem receita. A frustração com a conta salgada quase sempre é, na verdade, frustração com a falta de uma tese sobre onde a automação deveria atacar.

A tabela abaixo separa os dois regimes que, somados de forma indistinta, produzem a percepção enganosa de "IA cara".

Dois regimes de uso de IA que se confundem na fatura única
DimensãoUso sem prática (ROI negativo)Uso direcionado (ROI 5-20x)
Alvo da tarefaBaixo volume, baixo valorRepetitivo, alto volume
ExemploUS$4 de inferência para poupar 15 minAutomação de back-office
ContextoInflado, sem critério (RAG 3-5x)Decidido: o que entra, comprime e descarta
GovernançaPrompt genérico "não erre"Specs, evals e skills por projeto
Resultado em P&LNão mensurável (perfil dos 95% do MIT)Aceleração de receita (os ~5%)

A ilusão de substituição e a disciplina que separa os 5%

A segunda fonte de frustração é a fantasia de substituir um time por um prompt do tipo "não cometa erros" e tocar a operação com um agente genérico. A própria liderança do setor recuou dessa narrativa: em maio de 2026, Sam Altman declarou-se "bem errado" sobre o impacto econômico imediato, revertendo o alerta de junho de 2025, e Dario Amodei, que falava em eliminar 50% dos empregos de colarinho branco, passou a admitir que a automação pode expandir o trabalho (Fortune, 2026-05-26; TIME, 2026-05-26).

O que os 5% bem-sucedidos fazem de diferente é prática, não sorte. Specification engineering significa manter um corpus legível por máquina de políticas, padrões de qualidade e instruções que sustenta operação autônoma de múltiplos agentes em escala (arXiv, 2026). Context engineering é decidir o que entra na janela, o que se comprime, o que se recupera sob demanda e o que se descarta — a maioria das falhas de agentes em produção vem de contexto mal gerido, não do modelo (Arize AI, 2026). E evals respondem à única pergunta que importa: como sabemos que isto está funcionando?

Há um corolário desconfortável. A redução de camadas gerenciais — projeção de corte de mais de 50% de posições de média gerência por reestruturação com IA até 2026 (Pinnacle, 2026) — não é causada pela IA; ela apenas oferece o álibi para enxugar burocracia que já era dispensável. A IA virou bode expiatório conveniente para uma correção de estrutura que muitas organizações adiavam.

A mesma disciplina que dá ROI à IA é a que faz uma marca ser citada por LLMs

Reorganizar a equação leva a uma tese de gestão, não de tecnologia. O custo do token é irrelevante diante da qualidade do direcionamento. Um time menor, mesmo gastando mais por usar IA com intensidade, pode produzir e entregar mais — desde que a entrega seja governada por specs claras, evals rigorosos e contexto bem administrado. Mover-se rápido tem valor sistematicamente subestimado nas planilhas.

Persiste, porém, um limite que poucos mapeiam: produzir mais funcionalidades não aumenta receita automaticamente. Até 70% das funcionalidades de software nunca são usadas, e feature factories em velocidade de IA registram adoção média de apenas cerca de 6,4% (digia.tech, 2026). Despejar features que ninguém pediu não constrói produto — outcome supera output, e a capacidade humana de adotar tem ritmo próprio.

O fio condutor é o mesmo que rege a citabilidade por modelos de linguagem. A disciplina que faz a IA gerar retorno — especificações claras, dados estruturados, evals e clareza de intenção — é exatamente a que faz uma marca ser recuperada e citada por um LLM. Em ambos os casos, a máquina premia quem explicita objetivo, estrutura e padrão de qualidade. A questão nunca foi a ferramenta. É a tentativa recorrente de tapar ineficiência e falta de clareza com uma solução mágica — algo que não acontece, com IA ou com qualquer outra coisa.

Perguntas frequentes

Se o preço do token caiu 80%, por que minha fatura de IA subiu?

Por efeito volume, o paradoxo de Jevons. O preço unitário caiu cerca de 280x em dois anos, mas o gasto total subiu cerca de 320% porque workflows agênticos disparam de 10 a 20 chamadas por tarefa, o RAG infla o contexto de 3 a 5 vezes e agentes 24/7 consomem compute contínuo. A fatura mede quantidade e direcionamento de chamadas, não o preço de cada uma.

Por que 95% dos pilotos de IA não dão retorno se os modelos são bons?

Segundo o MIT NANDA (2025), a causa raiz é a lacuna de aprendizado e integração, não a qualidade do modelo. As empresas não constroem specs, evals e gestão de contexto que convertem capacidade bruta em resultado. Há ainda má alocação: mais de 50% do orçamento vai para vendas e marketing, enquanto o maior ROI está no back-office.

Quando a IA dá ROI negativo e quando dá positivo?

O ROI é negativo quando se aponta inferência cara para tarefas de baixo valor — por exemplo, gastar US$4 para poupar 15 minutos. É positivo, tipicamente de 5 a 20 vezes, quando direcionado a tarefas repetitivas de alto volume com objetivo declarado, specs e evals. A diferença está no alvo, não no preço.

Produzir mais funcionalidades com IA aumenta a receita?

Não automaticamente. Até 70% das funcionalidades de software nunca são usadas e feature factories em ritmo de IA têm adoção média de cerca de 6,4%. A capacidade humana de adotar tem ritmo próprio; outcome supera output. Volume de features não se converte em receita por conta própria.

Sobre o autor

Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq) e cofundador da AI Brasil. Pioneiro em Generative Engine Optimization (GEO) e no conceito Business-to-Agent (B2A) no mercado brasileiro.

Solicitar diagnóstico GEO gratuito

Referências

Fontes consultadas em pesquisa de junho de 2026. URLs verificadas na publicação.

  1. Fortune (2025-08-18). MIT report: 95% of generative AI pilots at companies are failing.
  2. Gartner (2026-03-25). Gartner Predicts That by 2030, Performing Inference on an LLM With 1 Trillion Parameters Will Cost GenAI Providers Over 90% Less Than in 2025.
  3. CloudZero (2026). LLM API Pricing Comparison In 2026: Every Major Model, Ranked By Cost.
  4. Silicon Data (2026). Understanding LLM Cost Per Token: A 2026 Practical Guide.
  5. oplexa (2026). AI Inference Cost Crisis 2026: Why Your AI Bill Is Exploding.
  6. Fortune (2026-05-26). Sam Altman and Dario Amodei are both walking back AI jobs apocalypse predictions as they eye IPOs.

Política de correções: erros materiais são corrigidos em até 72 horas com nota de retificação visível e atualização de dateModified. Veja os princípios editoriais.