Alexandre Caramaschi

doi:10.2139/ssrn.6460680

Skills personalizadas por projeto: a fronteira da produtividade real

Por Alexandre Caramaschi, CEO da Brasil GEO · Junho 2026

A produtividade real com IA não vem de licenças e tokens ilimitados distribuídos no atacado, mas de contexto curado e skills especializadas por projeto: a maioria das falhas de agentes em produção decorre de contexto mal gerido, não da qualidade do modelo. Quando 95% dos pilotos corporativos não geram impacto mensurável em P&L (MIT NANDA, 2025), a variável de controle deixou de ser o modelo e passou a ser a engenharia de contexto e especificação.

Por que a licença genérica para todos não move o ponteiro do P&L

A decisão mais comum de adoção corporativa de IA também é a menos eficaz: comprar assentos genéricos para toda a empresa, declarar a organização "AI-first" e aguardar o ganho de produtividade. O resultado está documentado. O relatório do MIT NANDA, "The GenAI Divide: State of AI in Business 2025", apurou que 95% dos pilotos corporativos de IA generativa não entregam impacto mensurável em lucro e prejuízo, e que apenas cerca de 5% atingem aceleração rápida de receita. A base é robusta: 150 entrevistas, 350 funcionarios e 300 deployments.

O dado decisivo não é o percentual de fracasso, mas a causa raiz que o estudo identifica. A lacuna não está na qualidade do modelo. Está no aprendizado e na integração, ou seja, na ausência de contexto operacional que permita ao sistema fazer algo útil dentro de um fluxo de trabalho real. Distribuir acesso não é o mesmo que distribuir capacidade. Um modelo sem contexto do negócio é um consultor brilhante sem briefing, sem acesso aos sistemas e sem critério de aceitação.

Há ainda uma alocação invertida de recursos. O MIT aponta que mais de 50% do orçamento de IA vai para vendas e marketing, enquanto o maior retorno está no back-office, justamente onde os processos são repetitivos, de alto volume e definíveis por especificação. A licença genérica trata todos os usos como equivalentes; a realidade dos retornos não é distribuída uniformemente.

Context engineering: a variável de controle que ninguém comprou

Engenharia de contexto é a disciplina de decidir o que entra na janela de contexto, o que é comprimido, o que é recuperado sob demanda e o que é descartado. Não é um detalhe de implementação; é o fator que separa um agente que funciona em produção de um que alucina, repete-se ou trava. A literatura técnica de 2026 é direta ao afirmar que a maioria das falhas de agentes em produção decorre de contexto mal gerido, e não do modelo subjacente (Arize AI, 2026).

Isso reposiciona o problema. Quando o gargalo é o contexto, trocar de modelo ou ampliar a cota de tokens não resolve. O que resolve é curadoria: políticas legíveis por máquina, dados estruturados acessíveis, recuperação seletiva e descarte do ruído. A specification engineering formaliza esse corpus de políticas, padrões de qualidade e instruções que torna possível a operação autônoma de múltiplos agentes em escala (arXiv, 2026). É a diferença entre um agente que sabe o que sua empresa considera "correto" e um que improvisa.

Skills personalizadas por projeto são a materialização operacional desse princípio. Em vez de um assistente genérico que conhece tudo superficialmente, você constrói competências específicas: o contexto daquele cliente, as regras daquele domínio, os critérios de aceitação daquele entregável. A produtividade real emerge dessa especialização, não da amplitude da licença.

Comprar mais tokens para um agente sem contexto curado é abastecer um carro sem direção: mais combustível só aumenta a velocidade com que ele sai da pista.

O paradoxo do volume: por que a conta sobe mesmo com tokens 280x mais baratos

O argumento de que IA é "cara demais" confunde preço unitário com gasto total. O preço por token caiu cerca de 280 vezes em dois anos, e os preços de API de LLM recuaram aproximadamente 80% entre o início de 2025 e o início de 2026 (o input do GPT-4o passou de US$ 5 para US$ 2,50 por milhão de tokens, segundo CloudZero, 2026). A Gartner projeta que, até 2030, a inferência em um modelo de 1 trilhão de parâmetros custará mais de 90% menos que em 2025 (Gartner, 2026-03-25).

Apesar disso, o gasto corporativo total com IA subiu cerca de 320% no mesmo período. O motivo é o efeito volume, não o preço: workflows agênticos disparam de 10 a 20 chamadas por tarefa, pipelines de RAG inflam o contexto de 3 a 5 vezes e agentes operando 24/7 consomem compute continuamente (oplexa, 2026). É exatamente o paradoxo de Jevons aplicado a tokens: quanto mais barato fica cada unidade, mais se consome.

A consequência prática é que o ROI pode ser negativo quando o uso não é direcionado, por exemplo, gastar US$ 4 de inferência para poupar 15 minutos de uma tarefa de baixo valor. O retorno típico de 5 a 20 vezes aparece quando a IA é apontada para tarefas repetitivas de alto volume com contexto bem definido. A licença ilimitada para todos é a receita perfeita para maximizar o efeito volume e minimizar o direcionamento.

Skill especializada versus assento genérico: a comparação que importa

A decisão de arquitetura tem efeito direto sobre custo, qualidade e adoção. A tabela abaixo contrasta as duas abordagens nos eixos que um executivo precisa avaliar antes de aprovar orçamento.

O dado de adoção fecha o argumento. Adotantes de automação de workflow apresentam 94% de retenção e 35% de expansão, contra 68% e 12% dos não-adotantes (Userpilot, 2026). A diferença não está no acesso à ferramenta; está na especialização do uso.

Skill personalizada por projeto versus licença genérica distribuída no atacado
Critério	Licença genérica para todos	Skill especializada por projeto
Variável de controle	Cota de tokens e número de assentos	Contexto curado, specs e evals
Causa típica de falha	Contexto mal gerido, alucinação, baixo uso	Erros capturados por eval antes de produção
Comportamento de custo	Efeito volume; ROI frequentemente negativo	Direcionado a alto volume; ROI de 5-20x
Critério de qualidade	Implícito, depende do usuário	Explícito, legível por máquina
Adoção e retenção	Adoção média ~6,4% em feature factory	94% de retenção em adotantes de workflow

Evals e specs: como saber que está funcionando antes de escalar

A pergunta que separa o piloto bem-sucedido do desperdício é simples: como sabemos que isto está funcionando? Evals são os testes que respondem a essa pergunta. Em uma arquitetura disciplinada, o harness valida as chamadas de ferramenta, verificando schema e permissão, antes de executá-las, o que transforma o agente de uma aposta em um sistema auditável (Arize AI, 2026).

Sem eval, escalar uma skill é amplificar um defeito desconhecido. Com eval, a especialização vira ativo composto: cada projeto adiciona contexto, regras e critérios reutilizáveis. É por isso que produzir mais funcionalidades não aumenta receita automaticamente. Estima-se que até 70% das funcionalidades de software nunca são usadas, e a feature factory em velocidade de IA tem adoção média de apenas 6,4% (digia.tech, 2026). Quantidade de output não é resultado.

Aqui a tese da Brasil GEO se conecta sem esforço: a mesma disciplina que faz a IA gerar ROI dentro da empresa, specs bem feitas, evals bem desenhados, dados estruturados e clareza de objetivo, é a que faz uma marca ser citada por modelos de linguagem. Em ambos os casos, o sistema só entrega quando o contexto é curado e a especificação é legível por máquina. Tokens ilimitados não compram nenhuma das duas coisas; engenharia de contexto compra as duas.

Perguntas frequentes

Comprar mais licenças e tokens de IA aumenta a produtividade da empresa?

Não de forma confiável. O MIT NANDA (2025) apurou que 95% dos pilotos corporativos não geram impacto mensurável em P&L, e a causa raiz é a lacuna de contexto e integração, não a falta de acesso ao modelo. Distribuir assentos não distribui capacidade.

Se o token ficou tão mais barato, por que minha conta de IA sobe?

Por efeito volume. O preço por token caiu cerca de 280x em dois anos, mas o gasto corporativo total subiu cerca de 320% no mesmo período, porque workflows agênticos disparam 10-20 chamadas por tarefa e o RAG infla o contexto de 3 a 5 vezes (oplexa, 2026). O custo é o uso indiscriminado, não o preço unitário.

O que é context engineering e por que importa para o ROI?

É decidir o que entra na janela de contexto, o que é comprimido, recuperado ou descartado. Importa porque a maioria das falhas de agentes em produção vem de contexto mal gerido, não do modelo (Arize AI, 2026). Sem isso, mais tokens só amplificam o erro.

Como saber se uma skill de IA está realmente funcionando antes de escalar?

Com evals: testes que respondem à pergunta 'como sabemos que isto está funcionando?'. O harness valida schema e permissão das chamadas de ferramenta antes de executar, tornando o agente auditável. Escalar sem eval é amplificar um defeito que você ainda não mediu.

Sobre o autor

Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), advisor estratégico de IA da Nuvini (Nasdaq: NVNI) e cofundador da AI Brasil. Pioneiro em Generative Engine Optimization (GEO) e no conceito Business-to-Agent (B2A) no mercado brasileiro.

Solicitar diagnóstico GEO gratuito