Alexandre Caramaschi

doi:10.2139/ssrn.6460680

Por que velocidade vale mais que o custo do token

Por Alexandre Caramaschi, CEO da Brasil GEO · Junho 2026

A vantagem competitiva da IA não está em minimizar a fatura de tokens, mas em comprimir o ciclo entre decidir e entregar: um time menor que custa mais por usar IA vence quando opera com menos camadas, menos aprovações e mais iterações. Velocidade organizacional — span of control alto, hierarquia achatada e ausência de pedágios internos — produz mais valor do que qualquer economia marginal no preço por token, que já caiu cerca de 80% entre início de 2025 e início de 2026.

A conta de tokens é a variável errada para otimizar

O debate corporativo fixou-se no preço por token como se fosse o gargalo do retorno. É um erro de enquadramento. O preço de inferência despencou: APIs de LLM caíram cerca de 80% entre início de 2025 e início de 2026, com o GPT-4o passando de US$5 para US$2,50 por milhão de tokens de entrada, e a Gartner projeta que rodar inferência em um modelo de 1 trilhão de parâmetros custará mais de 90% a menos em 2030 do que em 2025 (Gartner, 2026-03-25). Quando o insumo cai dois dígitos percentuais ao ano, otimizá-lo deixa de ser onde o jogo se decide.

O paradoxo de Jevons explica por que a fatura sobe mesmo com preço em queda: o gasto corporativo total com IA subiu cerca de 320% no mesmo período em que o preço por token caiu cerca de 280x em dois anos. Workflows agênticos disparam de 10 a 20 chamadas por tarefa, RAG infla o contexto de 3 a 5 vezes e agentes operando continuamente consomem compute sem pausa (oplexa, 2026). A conta cresce porque o uso explode, não porque o token encareceu.

A pergunta gerencial correta não é quanto custa o token, mas o que o trabalho liberado permite entregar mais rápido. Gastar US$4 de inferência para poupar 15 minutos é ROI negativo; direcionar a mesma capacidade a tarefas repetitivas de alto volume gera retorno típico de 5 a 20 vezes (oplexa, 2026). A diferença não está no preço unitário — está no alvo.

Por que um time menor e mais caro por cabeça entrega mais

A afirmação de que IA é sempre mais barata que um funcionário é falsa, e insistir nela desvia a análise. O argumento defensável é outro: um time menor, mesmo custando mais por integrante por usar IA de forma intensiva, pode produzir e entregar mais do que um time grande e barato preso em coordenação. O custo por pessoa sobe; o custo por unidade de valor entregue cai.

O mecanismo é a redução de atrito. Times grandes pagam um imposto invisível em reuniões de alinhamento, aprovações em cascata e handoffs entre funções. Esse imposto cresce de forma não linear com o número de pessoas. Reduzir o time e equipá-lo com IA para as tarefas mecânicas ataca o numerador (custo de coordenação) e o denominador (tempo até a entrega) ao mesmo tempo.

Mover-se rápido tem valor sistematicamente subestimado nos modelos financeiros. Iterar cinco vezes enquanto o concorrente itera uma significa cinco oportunidades de aprender com o mercado real antes que ele aprenda uma. Essa composição de aprendizado é a vantagem — não a planilha de inferência.

O custo relevante nunca foi o do token. É o custo de coordenar pessoas que não precisavam estar na sala e de esperar aprovações que não agregam decisão.

Hierarquia achatada: a alavanca que a IA tornou inevitável

O achatamento organizacional deixou de ser tendência e virou reestruturação concreta. Projeta-se corte de mais de 50% das posições de média gerência por reestruturação com IA até 2026, e até 20% das empresas usarão IA para reduzir a gerência média até o fim de 2026 (Pinnacle, 2026). O span of control médio subiu: os reportes diretos por gestor passaram de 10,9 em 2024 para 12,1 em 2025, com média geral em 14 e casos extremos de 90 reportes diretos.

Bayer, Amazon e Meta estão achatando hierarquias de forma deliberada, e a Oracle reestruturou cerca de 30.000 posições em 01/04/2026 (Pinnacle, 2026). Convém nomear o que está sendo cortado: muitas camadas gerenciais sempre adicionaram burocracia, bloqueios e lentidão por reflexo de porteiro, não decisão. A IA não criou esse problema; tornou visível e custoso mantê-lo.

É preciso honestidade sobre a narrativa. A IA virou bode expiatório conveniente para enxugamentos que a gestão já desejava. Os layoffs em tecnologia superaram 115.000 até maio de 2026, perto dos 124.000 de todo o ano de 2025, com empresas citando IA (Fortune, 2026-05-26). Mas o Yale Budget Lab indicou que a IA provavelmente não foi a causa do enfraquecimento do mercado de trabalho, sem mudança relevante no desemprego até março de 2026 para ocupações de alta exposição. A decisão de achatar é gerencial; a IA é o pretexto e, ao mesmo tempo, o que viabiliza operar com menos camadas sem perder controle.

Duas lentes para avaliar IA: minimizar a fatura vs. maximizar a velocidade
Dimensão	Lente do custo de token	Lente da velocidade organizacional
Métrica central	Preço por milhão de tokens	Tempo entre decidir e entregar
Variável que controla	Insumo em queda (~80% em 2 anos)	Atrito interno e número de camadas
Risco principal	Cortar uso e perder iteração	Produzir features que ninguém adota
Indicador de saúde	Fatura de inferência	Span of control e ciclo de iteração
Resultado típico	Economia marginal	ROI de 5-20x em tarefas de alto volume

O limite real: velocidade não é o mesmo que valor

Velocidade resolve o lado da oferta, não o da demanda. Produzir mais funcionalidades não aumenta receita automaticamente — quantidade de features não é receita. Com IA, times passaram a enviar de 7 a 9 features por trimestre onde antes enviavam 1 ou 2, mas a feature factory em velocidade de IA tem adoção média de apenas 6,4% (Userpilot, 2026). Até 70% das funcionalidades de software nunca são usadas e 78% dos funcionários admitem não ter expertise para usar bem as ferramentas do dia a dia (digia.tech, 2026).

Há uma restrição mal mapeada: a capacidade humana de adotar. Criar desejo e mudar comportamento demanda tempo, e esse tempo não acelera porque o pipeline de engenharia acelerou. Despejar 483 funcionalidades que ninguém pediu não constrói produto; constrói dívida de adoção. O ganho de velocidade só se converte em receita quando aponta para problemas que clientes realmente têm.

O dado que separa quem ganha é de outcome, não de output: adotantes de automação de workflow registram 94% de retenção e 35% de expansão, contra 68% e 12% dos não adotantes (Userpilot, 2026). Isso corrobora o diagnóstico do MIT NANDA — 95% dos pilotos corporativos de IA não entregam impacto mensurável em P&L, e a causa raiz é lacuna de aprendizado e integração, não qualidade do modelo (Fortune, 2025-08-18). Velocidade sem disciplina de adoção apenas acelera o desperdício.

A disciplina que transforma velocidade em vantagem citável

Velocidade só vira ROI sob disciplina. As mesmas práticas que separam o quinto que acelera receita da maioria que estanca são specs bem feitas, objetivos declarados sem ambiguidade, evals que respondem como sabemos que isto está funcionando e context engineering — decidir o que entra na janela, o que comprime, o que recupera sob demanda e o que descarta. A maioria das falhas de agentes em produção vem de contexto mal gerido, não do modelo (Arize AI, 2026).

A specification engineering — um corpus legível por máquina de políticas, padrões de qualidade e instruções — é o que permite operar múltiplos agentes em escala com menos supervisão humana (arXiv, 2026). É essa clareza estrutural que faz um time pequeno coordenar trabalho de um grande sem reintroduzir as camadas que acabou de eliminar. Sem ela, achatar a hierarquia apenas transfere o caos para a fila de prompts.

Aqui está a ponte que importa: a disciplina que faz a IA dar retorno — specs, evals, dados estruturados, clareza explícita — é a mesma que faz uma marca ser citada por modelos de linguagem. Conteúdo estruturado, afirmações ancoradas e respostas extraíveis tornam uma empresa legível tanto para seus próprios agentes quanto para os LLMs que hoje intermediam descoberta. A velocidade vence quando a clareza a sustenta. Sem clareza, IA e qualquer outra ferramenta apenas aceleram a tentativa permanente de tapar ineficiência e falta de foco com solução mágica — o que nunca funcionou.

Perguntas frequentes

Se o preço do token está caindo, por que minha fatura de IA continua subindo?

Por efeito de volume. O preço por token caiu cerca de 80% entre 2025 e 2026, mas o gasto corporativo total subiu cerca de 320% porque workflows agênticos disparam de 10 a 20 chamadas por tarefa e o RAG infla o contexto de 3 a 5 vezes. A conta cresce pelo uso, não pelo preço unitário.

Vale a pena manter um time menor mesmo que o custo por pessoa suba com IA?

Sim, quando o time menor entrega mais. O custo por integrante aumenta, mas o custo por unidade de valor entregue cai porque você elimina o imposto de coordenação, aprovações em cascata e handoffs. Mover-se rápido e iterar mais vezes que o concorrente compõe vantagem que a economia de token não gera.

Achatar a hierarquia e acelerar a entrega garante mais receita?

Não automaticamente. Quantidade de features não é receita: a feature factory em velocidade de IA tem adoção média de 6,4% e até 70% das funcionalidades nunca são usadas. Velocidade só vira receita quando direcionada a problemas reais de clientes, sustentada por specs claras, evals e disciplina de adoção.

Sobre o autor

Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), advisor estratégico de IA da Nuvini (Nasdaq: NVNI) e cofundador da AI Brasil. Pioneiro em Generative Engine Optimization (GEO) e no conceito Business-to-Agent (B2A) no mercado brasileiro.

Solicitar diagnóstico GEO gratuito