Você já leu o /entenda/ e quer aprofundar? Este é o próximo passo.
Vinte capítulos curtos, cada um com exemplo prático, analogia e um exercício pra aplicar imediato.
Autor: Alexandre Caramaschi, baseado no paper Algorithmic Authority (SSRN 2026).
Capítulo 01
AI Overview — A caixinha que matou o clique
O recurso que o Google lançou em 2024 e que mudou tudo.
AI Overview (antes chamado de SGE — Search Generative Experience) é o bloco
colorido que aparece no topo dos resultados do Google com uma resposta escrita por IA.
Ele está presente em 32% das buscas B2B em 2026 e é o principal responsável pela queda do tráfego orgânico.
Analogia
É como se você perguntasse "tem massa com molho de tomate?" pro garçom e ele já respondesse "sim, recomendo o spaghetti à bolonhesa" — sem você nem abrir o cardápio. O cardápio (os 10 links do Google) ainda está ali, mas ninguém abre.
Por que importa para a sua marca
Quando o Google gera a resposta via IA, ele cita 3 a 5 fontes numericamente. Se sua marca
aparece entre essas fontes, você ganha autoridade (mesmo sem clique). Se não aparece, você é esquecido.
A diferença entre aparecer ou não depende de: dados estruturados, llms.txt, consistência de entidade e autoridade temática.
Depois do Google I/O 2026, AI Overview e AI Mode passaram a operar como uma camada única com mais de 1 bilhão de usuários mensais. Uma análise editorial da virada está em "GEO não morreu, o que morreu foi o ritual técnico", do CEO da Brasil GEO.
Exercício
Abra Google e pesquise "melhor [seu produto/serviço] para [seu ICP]". Olhe o AI Overview. Sua marca está citada? Quantas fontes aparecem? Qual o primeiro link? Anote.
Retrieval-Augmented Generation — o que diferencia ChatGPT com browsing de ChatGPT offline.
RAG (Retrieval-Augmented Generation) é o mecanismo pelo qual um LLM busca informação em fontes
externas em tempo real antes de gerar a resposta. Perplexity, ChatGPT com browsing,
Google Gemini e Microsoft Copilot usam RAG.
Analogia
Sem RAG, o LLM é como um aluno respondendo prova com base só no que memorizou nos anos anteriores (treinamento). Com RAG, ele pode sair da sala, ir à biblioteca, ler artigos atuais e voltar para responder. A resposta fica muito melhor — e mais atual.
O que isso significa pra você
RAG escolhe fontes na hora, com base em autoridade, frescor e relevância. Se seu site:
É atualizado com frequência (frescor)
Tem dados estruturados claros (facilita leitura da máquina)
Está indexado rapidamente via IndexNow (chega antes)
Tem llms.txt estruturado (guia de leitura)
…então a chance de você ser escolhido como fonte pela RAG é muito maior. Perplexity, por exemplo,
mostra as fontes numericamente — se você aparece, ganha tráfego direto e citação.
O truque matemático que faz sua marca ser "agrupada" junto de concorrentes.
Embedding é a forma como os LLMs convertem palavras em vetores numéricos.
Cada palavra, frase ou documento vira um ponto num espaço com centenas (ou milhares) de dimensões.
Palavras parecidas ficam próximas; distintas ficam distantes.
Analogia
Imagine um mapa gigante onde cada marca do seu mercado é uma cidade. Marcas com posicionamento parecido ficam vizinhas. Marcas muito diferentes ficam em estados opostos. O LLM "vê" essa geografia. Se sua marca está na cidade errada (descrita vagamente, inconsistente), ele te agrupa com o cluster errado.
Por que importa
Quando alguém pergunta "melhores CRMs B2B", o LLM calcula os embeddings da pergunta e busca as marcas
cujos embeddings são mais próximos. Se você está descrito de forma clara, consistente e específica,
seu embedding aponta pra cidade certa.
Exercício
Pegue sua descrição de empresa em 3 lugares: site, LinkedIn, Crunchbase. Elas dizem a mesma coisa? Com as mesmas palavras-chave? Inconsistência = embedding ambíguo = você fica na "cidade errada".
Capítulo 04
Schema.org e JSON-LD — O código que fala com a máquina
Invisível para o usuário, obrigatório para a IA.
Schema.org é um vocabulário padronizado para marcar o significado do conteúdo numa página —
"isto é uma pessoa", "isto é uma empresa", "isto é um preço". JSON-LD é o formato
recomendado para implementá-lo: um bloco <script type="application/ld+json"> invisível ao usuário.
Exemplo prático
Esta página (/conceitos/) tem o JSON-LD abaixo no head. Observe como ele informa à IA que o autor é Alexandre Caramaschi,
que o conteúdo ensina 10 tópicos específicos e que faz parte de um recurso de aprendizado.
É como colocar etiquetas organizadas nas caixas do seu estoque. Sem etiqueta, quem chega precisa abrir tudo pra descobrir o que tem. Com etiqueta (JSON-LD), a IA entra e já sabe: "aqui tem uma Pessoa com ORCID X, aqui tem uma Organização com CNPJ Y".
Tipos essenciais para GEO
Person — sua biografia canônica (com ORCID, Wikidata, sameAs)
Organization — sua empresa (com taxID, founder, location)
Um arquivo simples que aumenta muito sua chance de ser citado.
llms.txt é um arquivo de texto servido na raiz do site (/llms.txt) que fornece
a LLMs uma visão sumarizada, estruturada e citável da identidade, serviços, ofertas e conteúdos
da marca. É especificação aberta, criada em 2024, já adotada pelos principais crawlers de IA. Vale registrar que llms.txt não é sinal oficial do Google, ponto que Alexandre Caramaschi explicou na justificativa de manter o arquivo em "llms.txt não é requisito para o Google, e mesmo assim mantenho o meu", útil para LLMs não-Google como Claude, Perplexity e ChatGPT com browsing.
Analogia
robots.txt diz ao Google o que ele PODE rastrear. llms.txt diz à IA o que ela precisa ENTENDER. É o bilhete de apresentação que você deixa na recepção pro visitante nerd da IA.
O framework que o Google usa há anos e que IAs também adotaram.
EEAT é a sigla para Experience, Expertise, Authoritativeness, Trustworthiness —
o framework de qualidade do Google. Em 2026, IAs generativas usam heurísticas muito parecidas:
preferem citar marcas com experiência real, expertise técnica demonstrável, autoridade reconhecida
e confiabilidade verificável.
Como comprovar cada dimensão
Experiência (E): anos de atuação, cases concretos, depoimentos, presença antiga no tema.
Autoridade (A): citações de terceiros, imprensa, academia, Wikidata, peer-reviewed.
Confiabilidade (T): CNPJ visível, contato verificável, política de privacidade, HTTPS, LGPD.
EEAT real da Brasil GEO
Veja a página do fundador — ela é uma ilustração concreta de EEAT alto: ORCID verificável (E de expertise), paper SSRN peer-reviewed (A de autoridade), cobertura de imprensa em 3 veículos (A de autoridade), CNPJ visível e política de privacidade (T de trust), 24+ anos em tecnologia (E de experiência).
Share of Voice Generativo — A métrica do novo mundo
Antes era ranking. Agora é quantas respostas te citam.
Share of Voice (SOV) Generativo mede em quantas respostas de IAs sua marca é citada,
entre as perguntas-chave do seu mercado. É o equivalente moderno do "ranking no Google":
em vez de contar posições, você conta citações.
Exemplo prático
Seu mercado: CRMs B2B. Você define 10 perguntas-chave ("melhor CRM para B2B", "CRM com integração Slack", etc). Pergunta em 4 IAs (ChatGPT, Gemini, Claude, Perplexity) = 40 respostas. Sua marca é citada em 12 delas. Seu SOV = 30%.
Como calcular SOV na prática
Escolha 10-20 perguntas-chave do seu funil
Execute cada uma em 4 IAs (manualmente ou via API)
Conte citações da sua marca vs concorrentes
Calcule % = citações suas ÷ total de respostas
Benchmark: qualquer coisa abaixo de 20% é alerta
Exercício
Escolha 5 perguntas-chave e pergunte em ChatGPT, Gemini e Claude (15 respostas). Anote em quantas sua marca aparece. Seu SOV inicial = ?. Essa é sua baseline.
Citabilidade é o quanto uma marca está "pronta para ser citada" por uma IA. É como
uma pré-métrica: antes de medir quantas vezes você aparece (SOV), você avalia se os fundamentos estão
no lugar para aparecer.
5 componentes de alta citabilidade
Entidade clara: Person + Organization Schema.org com @id único
Bio consistente: mesma descrição em todos os canais
Citabilidade é sua "pré-qualificação" na mente da IA. Você ainda não foi chamado (citado), mas já está na lista de candidatos elegíveis. Sem esses 5 fundamentos, você nem chega na lista.
Alucinação é o termo técnico para quando um LLM gera informação falsa com aparência de verdade.
Pode citar sua marca em contexto errado, atribuir produtos que você não tem, ou confundir sua identidade com
a de outra empresa homônima.
Tipos de alucinação sobre marcas
Atribuição errada: diz que você faz algo que você não faz.
Confusão de identidade: mistura você com concorrente ou homônimo.
Fatos incorretos: inventa preços, endereços, fundadores.
Citação inventada: atribui a você frases que você nunca disse.
Como GEO mitiga
Ao fornecer dados canônicos estruturados (Schema.org, llms.txt, bio consistente entre Wikidata + LinkedIn + site), você reduz a necessidade da IA "adivinhar" — e portanto reduz a chance de alucinar sobre sua marca. A disambiguatingDescription (no schema Person) é particularmente importante para termos ambíguos, como GEO (generative engine vs geoprocessamento).
O próximo passo depois de B2B e B2C. Tese pioneira de Alexandre Caramaschi no Brasil.
B2A (Business-to-Agent) descreve o cenário em que agentes autônomos de IA fazem
triagem, comparação, recomendação e até compra em nome de usuários humanos.
Não é ficção: OpenAI Operators (2025), Perplexity Shopping (2025) e agentes de n8n/LangChain/AutoGPT já operam em produção.
Analogia
Imagine que o cliente não entra mais na sua loja. Ele manda o mordomo-robô pesquisar, comparar e comprar. Seu trabalho agora é ser o fornecedor preferido do robô — e, pra isso, você precisa estar legível pra máquina.
Por que B2A muda tudo
Agentes não clicam em banners — não têm conversão emocional. Só lógica.
Agentes comparam especificações técnicas em millisegundos — a diferença é fina.
Agentes usam APIs e JSON-LD como fontes primárias — marketing visual importa zero.
Agentes seguem protocolos como MCP (Model Context Protocol) para acessar dados canônicos.
Como a Brasil GEO prepara B2A
O endpoint alexandrecaramaschi.com/api/mcp é um servidor MCP (Model Context Protocol) que expõe tools read-only para agentes invocarem: getBusinessInfo, getLocation, contactUs, listCourses. Qualquer agente na web pode descobrir e consumir sem fricção.
Comércio sem checkout humano: o agente compra em nome do dono e a marca precisa estar legível pra ele.
Agentic Commerce é a camada de comércio em que agentes autônomos executam pesquisa, comparação, negociação e compra em nome de um usuário humano. Sai de "loja com chatbot" e vira "loja sem cliente humano na sala". Em 2025 e 2026, três produtos já operam nesse modo em produção: OpenAI Operator (lançado 2025-01-23), Perplexity Shopping Hub (2024-11) e Anthropic Computer Use (2024-10-22).
A premissa é simples e brutal: se o agente compra, então o agente é seu novo cliente. E o agente não tem dó de campanha visual, jingle, brand love ou cor de embalagem. Ele tem três perguntas: a oferta é legível em JSON, o preço bate, e a marca tem reputação verificável? Quem responde sim para as três, vende. Quem responde não, é filtrado antes do humano ver.
Há uma diferença crítica entre Agentic Commerce e e-commerce convencional: a unidade de decisão deixa de ser uma sessão de navegação e passa a ser uma sequência de chamadas a APIs e tools. O agente lê um catálogo via MCP, compara via embeddings, valida reputação via fontes citadas pela LLM, fecha via UCP (Unified Commerce Protocol, proposto em discussões IETF 2025) ou ainda via formulários web automatizados. Cada uma dessas etapas pode te eliminar.
A janela competitiva 2026 é estreita. Os primeiros a ter catálogo legível, agent card publicado e política devolvida em JSON ocupam o lugar de fornecedor preferido nas memórias dos agentes que processam essa categoria. Quando o agente "aprende" rota de compra (alimentos no mercado X, papelaria no Y, embalagem no Z), o custo de troca é alto, igual ao custo de troca de banco para humanos. Os primeiros que entram na rota têm vantagem composta. Operação tarde corre risco de ficar fora da memória padrão dos agentes e depender sempre de busca ativa, que custa caro.
O que muda na camada de UX
A UX do checkout, durante 25 anos, foi otimizada para reduzir abandono humano. Agora ela precisa ser otimizada para um agente que não abandona, mas compara em paralelo com mais sete fornecedores. Três coisas mudam de imediato:
Catálogo legível por máquina: GTIN, MPN, schema Product/Offer completo, disponibilidade em tempo real. Sem isso, o agente desiste antes de chegar no carrinho.
Política de retorno em JSON: cláusulas em PDF não servem. O agente quer prazo em dias, condição de elegibilidade e link de RMA estruturado.
Endpoint de cotação: o agente quer pedir orçamento dinâmico via API, não preencher formulário. Se você só tem formulário, perde para o concorrente que tem rota REST.
Exemplo prático
Agente do banco do cliente recebe a meta: "renegociar conta de luz, alvo R$ 350/mês, fidelidade máxima 12 meses". Ele consulta tarifas de quatro distribuidoras alternativas, lê o schema Offer de cada uma, ranqueia por custo total no horizonte, abre dois canais via API e fecha o que oferece o melhor net present value. O humano só recebe push: "troquei sua distribuidora, economia R$ 78/mês, contrato anexo".
É como ter um corretor de imóveis em vez de buscar apartamento sozinho. Você não visita 40 unidades. Você diz ao corretor: três quartos, zona sul, até R$ 800 mil. Ele traz três opções. A diferença é que o corretor agora é um agente de IA, e a sua marca precisa estar no Rolodex dele em formato máquina-legível, com reputação documentada e API aberta.
Exercício
Pegue sua principal página de produto. Abra a aba "Code" do navegador. Procure por blocos application/ld+json com tipo Product ou Offer. Existe? Tem price, availability, gtin13? Se não tem, um agente que aterrissa nessa URL não consegue te indexar como ofertante elegível. Anote os campos faltantes.
Protocolo aberto que liga LLMs a ferramentas reais. Publicado pela Anthropic em 25 de novembro de 2024.
Model Context Protocol é uma especificação aberta criada pela Anthropic, anunciada em 25 de novembro de 2024 no post oficial "Introducing the Model Context Protocol" e publicada em modelcontextprotocol.io. O objetivo é padronizar como um LLM acessa fontes externas: arquivos, bancos de dados, APIs, sistemas de versão. Antes do MCP, cada integração era um plugin proprietário. Depois do MCP, qualquer cliente compatível conversa com qualquer servidor compatível.
A arquitetura tem três peças. O host é a aplicação que o usuário usa, por exemplo Claude Desktop ou Cursor. O cliente é a camada dentro do host que abre canais para servidores. O servidor é um processo separado que expõe três primitivas: tools (funções invocáveis), resources (recursos lidos por URI) e prompts (templates parametrizáveis). Comunicação default é stdio para servidores locais e SSE ou HTTP streamable para servidores remotos.
A adoção foi rápida e cruzada. OpenAI declarou suporte oficial em março de 2025. Google DeepMind incluiu MCP no Gemini CLI em julho de 2025. Microsoft adicionou MCP ao Copilot Studio. Em janeiro de 2026 existem mais de 800 servidores públicos catalogados, incluindo postgres, filesystem, github, slack, sentry, stripe, supabase, brave-search e dezenas de SaaS. Esse efeito de rede aconteceu mais rápido que o de qualquer outra spec de integração de LLM, e é a primeira evidência forte de que a era das integrações proprietárias acabou.
Por que MCP importa para GEO
Marca que expõe servidor MCP próprio entrega ao agente contexto canônico de primeira pessoa. Em vez do agente depender do que o LLM lembrou do treino (frágil, antigo, possivelmente errado), ele lê dados ao vivo do seu sistema. Isso reduz alucinação sobre sua marca a quase zero e cria fricção competitiva: o concorrente que não tem MCP precisa torcer pra ser citado de memória.
Há uma diferença prática entre publicar servidor MCP e publicar API REST. A API REST exige que o agente saiba a URL, a estrutura, o auth. O servidor MCP se descreve sozinho: cliente pede a lista de tools, recebe schema, sabe usar. É a diferença entre "leia minha documentação" e "leia meu manifesto e use". Para B2A, isso vale ouro. Em 2026, a Brasil GEO mantém servidor MCP read-only em alexandrecaramaschi.com/api/mcp com tools getBusinessInfo, getLocation, listCourses e contactUs justamente para servir de exemplo canônico do padrão.
Exemplo prático
Você roda um servidor MCP que expõe uma tool getOrderStatus(orderId). Quando um cliente pergunta no Claude Desktop "cadê meu pedido 4471?", o Claude chama essa tool, recebe JSON com status e ETA, e responde com dado fresco. Sem MCP, ele responderia algo genérico ou inventaria.
{
"name": "getOrderStatus",
"description": "Retorna status do pedido pelo ID",
"inputSchema": {
"type": "object",
"properties": {
"orderId": { "type": "string" }
},
"required": ["orderId"]
}
}
Analogia
MCP é o USB-C dos agentes. Antes, cada ferramenta tinha plugue diferente: Claude tools, OpenAI functions, plugins ChatGPT, Gemini extensions. Cada fornecedor produzia um adaptador por modelo. Depois do MCP, um único conector serve para todos os hosts compatíveis. O servidor que você escreve hoje funciona em Claude, Cursor, Cline, Continue, Zed e quem mais aderir.
Exercício
Instale Claude Desktop. No menu Settings, Developer, edite claude_desktop_config.json e adicione um servidor filesystem apontando para uma pasta sua. Reinicie. Pergunte ao Claude: "liste arquivos .md na pasta". Se ele responde com a lista real, você acabou de operar um host MCP. Próximo passo: pensar qual tool da sua empresa faria sentido expor.
Fontes: Anthropic Engineering blog "Introducing the Model Context Protocol" (2024-11-25), modelcontextprotocol.io spec (versão 2025-06-18), OpenAI Platform docs "MCP Tools" (2025-03), Google Cloud blog Gemini CLI MCP (2025-07).
Capítulo 13
Agent-to-Agent (A2A) Protocol: quando agentes negociam entre si
Spec do Google publicada em abril de 2025. Próximo degrau depois do MCP.
Se MCP padroniza como um LLM acessa uma ferramenta, Agent-to-Agent (A2A) padroniza como um agente conversa com outro agente. O Google anunciou o protocolo em 9 de abril de 2025 no Google Cloud Next, com mais de 50 parceiros iniciais incluindo Salesforce, SAP, ServiceNow, MongoDB, Atlassian, Box, Cohere, Deloitte, Accenture e PwC. A spec vive em github.com/google/A2A sob licença Apache 2.0.
A unidade central do A2A é o Agent Card: um JSON publicado em /.well-known/agent.json que descreve capacidades, modalidades suportadas, endpoint, esquema de autenticação e habilidades. Quando o agente A precisa fazer algo fora do escopo dele, ele descobre o agente B lendo o card, abre uma sessão, troca mensagens e tarefas, e fecha. Tudo HTTPS, com JSON-RPC ou eventos SSE.
O card cumpre função análoga ao robots.txt ou ao llms.txt em camada anterior: ele é o ponto de descoberta. A diferença é que o agent card descreve capacidades acionáveis, não permissões de crawl ou bilhete editorial. É a transição de "leia meu conteúdo" para "execute estas habilidades comigo". Em 2026 já há diretórios públicos de agent cards (agentregistry.dev e variantes), num movimento muito parecido ao que aconteceu com APIs públicas no final da década de 2000.
A diferença filosófica em relação ao MCP é que MCP assume hierarquia (host invoca server) enquanto A2A assume pares. Os dois agentes têm autonomia, podem recusar, podem negociar prazo, podem reformular. Isso muda o tipo de transação possível. MCP serve para "consultar Postgres". A2A serve para "negociar contrato com o agente do fornecedor". Os dois protocolos são complementares e quase sempre coabitam: o agente A usa MCP para consultar seu próprio CRM e A2A para falar com o agente B do parceiro.
Por que B2A maduro depende de A2A
No capítulo 10 falamos de Business-to-Agent. O B2A versão alpha funciona com um agente do comprador navegando seu site como humano, lendo HTML, preenchendo formulário, esperando resposta de e-mail. É funcional mas frágil, lento e impreciso. O B2A maduro funciona quando o agente do comprador fala com o agente vendedor da sua marca via A2A. Cotação, prazo, condição comercial, follow-up: tudo via mensagens A2A estruturadas. O ganho de eficiência muda a economia da venda B2B inteira. O risco é claro: quem não tiver agent card publicado fica fora do circuito de descoberta nos próximos 24 meses, do mesmo jeito que quem não tinha site em 2002 saiu do circuito.
Exemplo prático
Você publica em https://suaempresa.com.br/.well-known/agent.json o card abaixo. Um agente de procurement de uma fábrica busca fornecedores de embalagem flexível, descobre seu card via crawl ou diretório, abre tarefa "cotação 500 mil unidades, embalagem laminada 80g, entrega Joinville", e seu agente vendedor responde com preço, prazo e contrato proposto.
{
"name": "AgenteVendedorAcmeEmbalagens",
"description": "Agente de pré-vendas de embalagem flexível",
"url": "https://acme.com.br/a2a",
"version": "1.0.0",
"capabilities": {
"streaming": true,
"pushNotifications": true
},
"skills": [
{
"id": "quote",
"name": "Solicitar cotação",
"description": "Devolve proposta comercial com prazo e preço"
}
]
}
Analogia
Pense em dois advogados negociando contrato. Cada um representa um cliente, cada um tem mandato, cada um pode falar não. A negociação é entre pares, não entre patrão e empregado. A2A é o sistema de protocolo desses dois advogados. Sem ele, cada vez que dois agentes precisam transacionar é gambiarra ad hoc. Com ele, é fluxo padronizado.
Exercício
Visite google.github.io/A2A. Baixe um dos servidores de referência (Python ou TypeScript). Rode local. Crie um agent card mínimo para a sua empresa, mesmo que seja só com a skill "responder dúvida sobre catálogo". Hospede em /.well-known/agent.json. Você acabou de plantar uma bandeira no mapa A2A. Em 18 meses, isso vai ser tão básico quanto ter sitemap.xml.
Fontes: Google Cloud Next anúncio A2A (2025-04-09), repositório github.com/google/A2A (Apache 2.0), Salesforce blog "A2A integration" (2025-04), MongoDB partner press release (2025-04-09).
Capítulo 14
RLHF: como o ChatGPT aprendeu a ser educado
Reinforcement Learning from Human Feedback. O método que transformou GPT-3 em ChatGPT.
RLHF (Reinforcement Learning from Human Feedback) é a técnica que ajusta um modelo de linguagem para responder de acordo com preferências humanas. O paper de referência é Ouyang et al. 2022, "Training language models to follow instructions with human feedback", arXiv:2203.02155, publicado pela OpenAI em março de 2022. É o método que diferencia GPT-3 cru (que completava texto) de InstructGPT e ChatGPT (que seguem instruções e recusam pedidos perigosos).
O processo tem três etapas. Primeiro, fine-tuning supervisionado com pares prompt-resposta escritos por humanos contratados. Segundo, treinamento de um modelo de recompensa a partir de rankings humanos sobre pares de respostas alternativas. Terceiro, otimização do modelo com PPO (Proximal Policy Optimization) ou DPO (Direct Preference Optimization) usando o modelo de recompensa como sinal. O resultado é um modelo que prefere respostas que humanos avaliaram como melhores.
Em 2023 surgiu o RLAIF (Reinforcement Learning from AI Feedback), proposto pela Anthropic no paper "Constitutional AI" de dezembro de 2022 (arXiv:2212.08073), onde o feedback vem de outro LLM seguindo uma constituição de princípios. Em 2024 e 2025 o DPO de Rafailov et al. (NeurIPS 2023, arXiv:2305.18290) substituiu PPO em vários laboratórios por ser mais estável e barato. Em 2025 o GRPO foi popularizado pelo DeepSeek-R1 (paper 2025-01-22, arXiv:2501.12948) para alinhamento com reasoning.
A ramificação metodológica importa porque cada variante muda o gosto do modelo final. PPO clássico tende a produzir modelos verbosos e cautelosos. DPO produz modelos mais concisos por construção matemática. Constitutional AI produz modelos que verbalizam o raciocínio ético quando recusam. Quem treinou seu modelo favorito, com qual método e sobre qual constituição, é uma decisão editorial. Não é neutra. A Anthropic publica sua constituição completa em anthropic.com/constitution, ato raro de transparência no setor.
Trade-off central: alinhamento custa capacidade
O paper de Bai et al. 2022 da Anthropic ("Training a Helpful and Harmless Assistant with RLHF", arXiv:2204.05862) já documentava o alignment tax: o modelo alinhado responde melhor a tarefas instruction-following, mas piora em alguns benchmarks de capacidade pura. O motivo é simples: o modelo aprendeu a recusar, hedge, contextualizar e ser cauteloso. Isso é desejável em maioria dos casos e custoso em outros, por exemplo em raciocínio matemático livre ou criatividade ficcional sem trilho.
Exemplo prático
GPT-3 davinci de 2020 aceitava prompt "escreva email convencendo cliente a comprar mesmo sem precisar" e respondia com 5 parágrafos de copy agressivo. GPT-4 e Claude 4, em 2026, respondem "posso ajudar com copy persuasivo ético, mas evito manipulação. Posso reformular?". Essa diferença é RLHF aplicado sobre milhões de exemplos de "respostas preferidas por humanos avaliadores". Não é magia, é treino direcionado.
Analogia
RLHF é o estágio de educação do estagiário inteligente. O LLM cru é o calouro brilhante que leu a biblioteca inteira mas não sabe como se portar em reunião com cliente. RLHF é o coach que avalia: "essa resposta foi grosseira, essa foi prolixa, essa foi exatamente o tom que queremos". Ao longo de meses, o estagiário aprende não só o que dizer, mas como dizer e quando não dizer.
Exercício
Pegue um prompt sensível, por exemplo "como faço para convencer cliente que ele precisa de algo que ele não precisa". Mande no Claude, no ChatGPT e no Gemini. Compare as recusas: a forma da recusa, o tom, a oferta de alternativa, o reframe. As três foram treinadas com RLHF, mas com constituições diferentes. Anote as diferenças. Esse é o gosto editorial da empresa que treinou cada modelo.
Fontes: Ouyang et al. (2022) arXiv:2203.02155, Bai et al. (2022) arXiv:2204.05862, Anthropic Constitutional AI (2022) arXiv:2212.08073, Rafailov et al. DPO (2023) arXiv:2305.18290, DeepSeek-R1 (2025-01-22) arXiv:2501.12948.
Capítulo 15
Fine-tuning vs RAG: qual usar e quando
A pergunta certa não opõe "qual é melhor" e sim "qual problema você está resolvendo".
Fine-tuning ajusta os pesos do modelo com seus dados. RAG deixa os pesos intactos e busca seus dados em tempo de inferência. As duas técnicas resolvem problemas diferentes, embora a discussão em conferências em 2024 e 2025 tenha levado o público a achar que são alternativas excludentes. Não são. O paper de Ovadia et al. 2024 "Fine-Tuning or Retrieval?" (arXiv:2312.05934) mostrou empiricamente que RAG quase sempre vence em tarefas de conhecimento factual, mas fine-tuning vence em adaptação de estilo, formato e domínio raro.
Use fine-tuning quando o problema é forma e não fato: tom de voz da marca, formato estruturado específico, domínio linguístico raro (jurídico brasileiro, médico veterinário, normas técnicas ABNT), recusa de tópico off-policy, comportamento ferramenta-específico. O modelo precisa aprender o jeito, não os fatos. Custo: treino caro mas inferência barata. Exemplo de uso real: GPT-4o-mini fine-tuned no jeito de redação do New York Times, anunciado em 2024-08.
Use RAG quando o problema é fato e não forma: catálogo de produtos, base de conhecimento de suporte, normas que mudam, base jurisprudencial atualizada, política da empresa. O modelo já sabe escrever bem em português. Ele precisa ler o seu documento certo na hora certa. Custo: inferência cara (cada query lê embeddings + recupera trechos + faz prompt longo) mas zero treino.
Há um terceiro caminho que cresceu em 2024 e 2025: contexto longo com prompt caching. Em vez de fine-tunar ou indexar, você manda o documento inteiro junto da query, mas cacheia o prompt para reutilizar em chamadas subsequentes. Anthropic, OpenAI e Google oferecem cache. O custo cai 70 a 90% no segundo uso em diante. Funciona bem para bases de até 200 mil tokens que mudam pouco e são consultadas muito. Não substitui RAG em bases dinâmicas mas é o primeiro recurso a testar antes de qualquer arquitetura mais cara.
Decision tree prático
Volume e fato muda toda semana? RAG. Fine-tune fica obsoleto antes de você publicar.
Você precisa de output em formato JSON com schema travado? Function calling resolve. Se não bastar, fine-tuning de formato.
Seu domínio é nicho com vocabulário próprio (português jurídico, agronegocio, contabilidade fiscal)? Considere fine-tuning de domínio sobre base RAG.
Você está num produto B2B SaaS com bases de clientes isoladas? RAG por tenant, fine-tune zero. Cada cliente é um índice separado, modelo é o mesmo.
Custo de inferência alto demais por query repetida? Prompt caching da Anthropic (Sonnet 4, Opus 4) e do Google (Gemini context cache) cortam 70-90%. Antes de fine-tunar, tente cache.
Exemplo prático
Loja de moda B2B com 14 mil SKUs, coleção troca a cada 30 dias. Catálogo num índice vetorial Pinecone ou Qdrant (chunks de produto + embeddings). RAG sobre o índice resolve "qual blazer em linho leve para clima 30 graus, corte slim, até R$ 600". Fine-tuning seria inviável: a coleção muda, o modelo fica desatualizado. Já o assistente de SAC da mesma marca, com tom de voz específico ("simpático, breve, encerra com sugestão de visita à loja física"), faz sentido fine-tunar sobre 5 mil conversas reais aprovadas pelo time editorial.
Analogia
Fine-tuning é treinar o estagiário no jeito da casa. RAG é dar ao estagiário um intranet bem indexada que ele consulta antes de cada resposta. Você quer que ele escreva como a empresa? Treine. Você quer que ele cite o procedimento certo? Indexe. Empresas maduras fazem os dois: treinam o jeito, indexam os fatos.
Exercício
Liste cinco tarefas que sua empresa hoje faz manualmente e que poderia delegar a LLM. Para cada uma, marque: a tarefa é de forma (jeito, tom, estrutura) ou de fato (informação atualizada)? A resposta dita a técnica. Surpresa comum: 4 das 5 tarefas são de fato, e a empresa estava prestes a contratar fine-tuning sem precisar.
Fontes: Ovadia et al. (2023, atualizado 2024) "Fine-Tuning or Retrieval?" arXiv:2312.05934, OpenAI Cookbook "When to fine-tune" (2024), Anthropic prompt caching docs (2024-08-14, ampliado 2025), New York Times Connection com OpenAI (2024-08).
Capítulo 16
Vector Databases na prática 2026: Pinecone, Weaviate, Qdrant, pgvector
Como escolher banco vetorial sem brigar com o financeiro nem com o time de infra.
Banco de vetores armazena embeddings (vetores numéricos de 256 a 4096 dimensões em 2026) e executa busca por similaridade em milissegundos. O mercado consolidou quatro nomes operacionais sérios e duas extensões dentro de Postgres. Cada uma resolve um corte diferente do trade-off entre custo, latência, escala e ergonomia de DevOps.
Pinecone, fundada por Edo Liberty em 2019, é o pioneiro SaaS. Lançou serverless em janeiro de 2024 e em 2026 oferece preço por uso real (storage + read units + write units). Vence em ergonomia: SDK limpo, sem servidor para administrar, métricas no painel. Custo médio: US$ 0,33 por GB-mês de storage + US$ 8,25 por milhão de read units no plano serverless padrão (tabelas de janeiro de 2026). Fraqueza: vendor lock-in, indisponível em ambiente on-prem.
Weaviate, criado por Bob van Luijt na SeMI Technologies em 2019, é open-source GPL com cloud opcional. Tem schema rico (objetos com propriedades, módulos de geração e classificação embutidos) e suporta busca híbrida nativa. Vence em quem quer cluster próprio sem reinventar. Custo: zero se self-hosted (você paga a infra), ou US$ 25/mês na entrada do Weaviate Cloud Services em 2026.
Qdrant, lançado em 2021 pela equipe de Andrey Vasnetsov em Berlim, escrito em Rust, é o mais rápido nos benchmarks ANN-Benchmarks de 2024 e 2025. Suporta filtragem com payload arbitrário e busca esparsa+densa híbrida. Open-source Apache 2.0. Cloud gerenciado tem free tier 1GB e plano dedicado a partir de US$ 25/mês. Vence em performance pura e em quem topa Rust + Docker.
pgvector, extensão Postgres de Andrew Kane lançada em 2021, virou o default no Supabase, Neon, RDS Aurora e Crunchy. A versão 0.8.0 de outubro de 2024 trouxe HNSW e suporte a tipos sparsevec e halfvec, fechando o gap de performance contra os bancos especializados em volumes até dezenas de milhões de vetores. Vence em quem já tem Postgres, quer transação ACID e quer JOIN entre embedding e tabelas relacionais. Custo: o do Postgres que você já paga.
Como decidir em 5 perguntas
Quantos vetores você terá em 12 meses? Até 10M: pgvector resolve. 10M a 500M: Qdrant ou Weaviate. Acima: Pinecone serverless ou Qdrant cluster.
Você já roda Postgres? Sim e <50M vetores: pgvector primeiro. Não force outra infra.
Você precisa de filtros complexos (multi-tenant + RBAC + campo data)? Qdrant payload é o estado-da-arte. Pinecone fez progresso em 2025 mas ainda atrás.
Você quer self-host on-prem (compliance, LGPD, ANPD CD 04/2023)? Qdrant ou Weaviate. Pinecone está fora.
Quanto custa errar? Migração entre bancos vetoriais é cara mas factível. Migração de modelo de embedding (text-embedding-3-small da OpenAI para text-embedding-3-large, ou para Cohere embed-v3, ou para BAAI/bge-m3) é onde a dor real está. Padronize o modelo antes do banco.
Escolher banco vetorial é como escolher carro de empresa. Pinecone é Uber Black: você paga por uso, alguém dirige, está limpo. Qdrant é carro próprio Rust-engineered: rápido, manutenção sua. Weaviate é van de aplicativo com módulos extras. pgvector é o táxi que sai do seu prédio porque você já tem o ponto. O erro é comprar Ferrari para fazer 10 km por dia no centro.
Exercício
Conte hoje quantos documentos sua empresa quer indexar (FAQs, manuais, políticas, descrições de produto). Multiplique por 5 (média de chunks por documento). Você tem o número aproximado de vetores. Cruze com a tabela acima. Se for menos de 1M e você já tem Postgres, comece com pgvector e gaste o tempo em pensar nos chunks, não no banco.
Hybrid Search: por que keyword puro perde 30% das queries
BM25 e busca vetorial juntos. Implementação prática com Typesense, Elastic ou Postgres.
Hybrid Search combina busca por palavra-chave clássica (BM25, criado por Stephen Robertson em 1994 e ainda padrão ouro em ranking lexical) com busca vetorial densa (embeddings + similaridade cosseno). A intuição é direta: keyword é boa em queries com termos raros e específicos ("erro KEYV-1147 no Kubernetes 1.32"), vetor é bom em queries semânticas e parafraseadas ("o que faço quando o cluster não responde").
A literatura confirma a vantagem da combinação. Bruch et al. publicaram em SIGIR 2024 o paper "Bridging Dense and Sparse Maximum Inner Product Search" (arXiv:2404.17897) mostrando ganho consistente sobre cada técnica isolada em BEIR. A Microsoft publicou em julho de 2024 o blog "Outperforming vector search with hybrid retrieval and reranking" usando Reciprocal Rank Fusion e mostrou ganho de 10 a 20% sobre vetor puro. A Anthropic, no post "Introducing Contextual Retrieval" de setembro de 2024, mediu 49% de redução de falhas de recuperação com BM25 + embedding + reranker frente a embedding sozinho.
O método de fusão mais usado em 2026 é o Reciprocal Rank Fusion (RRF), proposto por Cormack, Clarke e Buettcher em SIGIR 2009. A fórmula é simples: para cada documento, soma-se 1/(k + rank_lexical) + 1/(k + rank_vetorial), com k tipicamente 60. Quem tem rank bom nas duas listas sobe ao topo. RRF está implementado nativamente em OpenSearch 2.11+, Elasticsearch 8.13+, Typesense 26+ e Weaviate 1.21+.
Implementação canônica em 3 motores
Typesense: criado por Jason Bourne em 2015, open-source GPL-3, é o mais ergonômico para startups. Habilita híbrido com query_by: "title,embedding" e vector_query: "embedding:([...], k:10)". Cluster gerenciado a partir de US$ 19/mês. Implementação leva tarde de trabalho.
Elasticsearch / OpenSearch: padrão de mercado em log/observability. Em 2024 ganharam pipeline de RRF nativo e suporte a knn_vector com HNSW. Curva de aprendizado maior, mas é o que time de DevOps maduro já conhece.
Postgres com pgvector + ts_vector: rodando ambas no mesmo banco, fusão via CTE com window function dense_rank() sobre cada lista, soma das recíprocas. Zero servidor extra. Brilha em até 5 milhões de chunks.
Híbrido em SQL puro (pgvector + tsvector)
WITH lexical AS (
SELECT id, ts_rank(search_vector, query) AS lex_score,
row_number() OVER (ORDER BY ts_rank DESC) AS lex_rank
FROM docs, plainto_tsquery('portugues', $1) query
WHERE search_vector @@ query LIMIT 50
), semantic AS (
SELECT id, 1 - (embedding <=> $2) AS sem_score,
row_number() OVER (ORDER BY embedding <=> $2) AS sem_rank
FROM docs LIMIT 50
)
SELECT id,
(1.0 / (60 + COALESCE(lex_rank, 100))) +
(1.0 / (60 + COALESCE(sem_rank, 100))) AS rrf_score
FROM lexical FULL OUTER JOIN semantic USING (id)
ORDER BY rrf_score DESC LIMIT 10;
Analogia
Vetor puro é o bibliotecário que entende a vibe da sua pergunta mas pode trazer livro fora do tema porque "parecia próximo". Keyword puro é o catálogo de fichas: se você não souber o termo exato, não acha. Híbrido é o bibliotecário com o catálogo na mesa. Você pergunta solto, ele entende a vibe, e ainda confere se a ficha menciona o termo raro que importa.
Exercício
Liste 10 queries reais que usuários fazem no seu site (Google Search Console, Hotjar, transcrições de chat). Para cada uma, marque: termo raro presente (CNPJ, código, modelo) ou paráfrase semântica? Conte. Se mais de 40% têm termos raros, busca vetorial pura está te penalizando hoje. Híbrido recupera essas 30-50% que vetor estava perdendo.
Fontes: Robertson e Walker (1994) BM25 paper, Cormack et al. (2009) SIGIR RRF, Bruch et al. (2024) arXiv:2404.17897, Microsoft Tech Community "hybrid retrieval and reranking" (2024-07), Anthropic "Contextual Retrieval" (2024-09-18).
Capítulo 18
Tool Use e Function Calling: LLM como roteador de funções
O LLM não executa nada. Ele decide qual função chamar, com quais parâmetros, e em que ordem.
Tool use (ou function calling, na nomenclatura OpenAI) é a habilidade do LLM de, dada uma lista de funções disponíveis com schema JSON, decidir qual chamar, com quais argumentos e em qual sequência. A OpenAI introduziu function calling em junho de 2023, a Anthropic lançou tool use em 4 de abril de 2024 (Claude 3 sonnet e opus), o Google adicionou ao Gemini em maio de 2024. Em 2025-2026, é capacidade core de todos os modelos sérios.
A separação de responsabilidades é estrita. O LLM não executa a função. Ele emite uma mensagem estruturada do tipo tool_use dizendo "preciso chamar getWeather com city=Goiania". O cliente (sua aplicação) intercepta, executa a função real (HTTP, banco, sistema), recebe o resultado, devolve ao LLM como mensagem tool_result, e o LLM continua o raciocínio com base no resultado. Isso é fundamental para segurança: tudo que toca dado ou sistema é código auditável seu, não o modelo.
O schema padrão usa JSON Schema. Cada tool tem name, description e input_schema com types, properties e required. Modelos modernos lidam bem com 20 a 50 tools no contexto. Acima disso vale dynamic tool selection: você usa embedding para escolher quais tools mostrar ao modelo em cada turno, técnica que Anthropic recomenda no cookbook "tool use with thousands of tools" (2024).
A descrição (description) de cada tool é o item mais subestimado da implementação. O modelo decide chamar ou não com base nesse texto. Descrição ruim leva o modelo a chamar a tool errada, em momento errado, ou a alucinar argumentos. A boa prática 2026 é descrever três coisas em cada descrição: o que a tool faz, quando o modelo deve usar e exemplos de input típico. Os mesmos princípios de redação técnica boa para humanos valem para LLMs, com diferença de que o LLM lê tudo, não fatiga e respeita o que está escrito.
Modos de invocação
Auto: modelo decide se chama tool ou responde direto. Padrão na maioria dos casos.
Any: força chamada de alguma tool, sem dizer qual. Útil quando você sabe que a query exige consulta externa.
Tool específica: força chamada da tool X. Útil em pipelines determinísticos.
Paralelo: modelos como GPT-4o e Claude Sonnet 4 emitem várias tool_use num único turno para chamadas independentes. Reduz latência em 2x a 4x.
Schema JSON canônico (Anthropic format)
{
"name": "getWeather",
"description": "Retorna previsão atual para a cidade. Use quando o usuário perguntar clima, temperatura, chuva ou condicoes meteorologicas.",
"input_schema": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "Nome da cidade. Exemplo: Goiania, Sao Paulo, Rio de Janeiro"
},
"unit": {
"type": "string",
"enum": ["celsius", "fahrenheit"],
"default": "celsius"
}
},
"required": ["city"]
}
}
Analogia
O LLM com tools é o gerente que delega. Ele não conserta a impressora, não consulta o ERP, não roda o relatório. Ele lê o pedido do cliente, sabe que vai precisar de três coisas, e despacha cada uma para o especialista certo. Quando os três especialistas respondem, ele monta a resposta final. A inteligência está na decisão de qual ferramenta, com quais argumentos, e como sintetizar.
Exercício
Liste cinco perguntas que seus clientes fazem e que hoje exigem que um humano consulte sistema interno (status de pedido, saldo, posição financeira, vencimento, agenda). Para cada uma, escreva o schema da tool que resolveria. Você acabou de ter o backlog de um agente B2A funcional. Implementação leva semanas, não meses.
Fontes: OpenAI function calling release (2023-06-13), Anthropic tool use launch (2024-04-04), Anthropic cookbook "Customer support agent" (2024), Google Gemini function calling docs (2024-05).
Capítulo 19
Multimodal Models: texto, imagem, áudio, vídeo num modelo só
Gemini 2.5, Claude 4, GPT-4o, GPT-5: o que muda no SEO de imagem.
Modelo multimodal é um LLM treinado nativamente em mais de uma modalidade (texto + imagem + áudio + vídeo), em vez de combinar modelos separados via pipeline. O salto começou com GPT-4V (Vision) em setembro de 2023 e ganhou força com Gemini 1.5 (fevereiro 2024), GPT-4o (maio 2024, treinado nativo em áudio), Claude 3.5 Sonnet com visão (junho 2024), e em 2025-2026 Gemini 2.5 Pro, Claude 4.5/4.7 e GPT-5.
A diferença entre modelo multimodal nativo e pipeline multimodal é qualitativa. No pipeline antigo, uma imagem virava texto via OCR ou caption model e o texto entrava no LLM. Informação visual fina (cor de produto, layout de gráfico, expressão facial num vídeo) se perdia na tradução. No modelo nativo, a imagem entra como tokens visuais junto dos tokens textuais, e o modelo aprende relações entre eles. Resultado: ele lê tabela de imagem PDF como tabela, não como "um monte de letras".
Implicação direta para SEO de imagem: as três técnicas tradicionais (alt text descritivo, nome de arquivo semântico, Schema ImageObject) continuam relevantes mas não dão mais conta sozinhas. O modelo multimodal lê a imagem em si, não só os metadados. Sua foto precisa mostrar o produto de forma legível por máquina, com contexto visual claro, contraste, perspectiva, qualidade. A imagem virou um documento.
Esse deslocamento força repensar o padrão de produção visual da empresa. Times de marketing acostumados a foto de produto stock, fundo branco, ângulo único, agora precisam de banco de imagens com múltiplos ângulos, contexto de uso, alta resolução. PDF de catálogo, antes diagramado para humano folhear, vira documento que LLM lê página por página. Vídeo institucional ganha valor de transcrição automática que vira material de RAG. Áudio de webinar deixa de ser asset perdido e vira fonte indexável de Q&A.
O que muda na prática para SEO multimodal
Alt text continua importando, mas como um dos sinais, não o único. Escreva o que a imagem mostra com precisão funcional, não com keywords stuffadas.
Resolução virou ranking factor: imagens granuladas perdem em modelos multimodais que precisam ler texto dentro da imagem (etiqueta, número de modelo, gráfico).
Contexto visual: foto de produto sobre fundo confuso vence menos que foto em contexto de uso. O modelo aprende a associação visual + funcional.
Schema ImageObject com contentUrl, width, height, caption, license e author. Modelos multimodais que processam SchemaResourceObject ganham contexto que pixels sozinhos não dão.
Áudio e vídeo agora são indexáveis. Transcrição automática deixou de ser hack: Gemini 2.5 e GPT-4o leem áudio bruto. SchemaPodcastEpisode e VideoObject com transcript ganharam peso.
Exemplo prático
Você vende equipamento agrícola. Em 2022, sua foto de produto era 800x600 com nome de arquivo "trator-azul.jpg" e alt "trator agrícola azul 90cv". Suficiente para Google. Em 2026, o agente do produtor manda foto do galpão do cliente para o LLM multimodal e pergunta "qual desses tratores no catálogo da Acme cabe nesse vão?". O modelo abre seu catálogo, vê suas fotos, mede proporção, lê especificações no Schema, responde. Se suas fotos são 800x600 borradas, ele responde "Acme tem modelos X e Y mas não consigo confirmar dimensões pelas imagens disponíveis". Você acabou de perder a venda por foto ruim.
Analogia
Antes, a IA era cego com bengala (lia só o alt text). Agora ela enxerga. Sua imagem deixou de ser decoração da página e virou conteúdo de primeira classe, igual o texto. Quem trata foto de produto como decoração, perde para quem trata foto como documento técnico.
Exercício
Pegue cinco imagens centrais do seu site (produto, fundador, escritório, evento, infográfico). Abra Gemini ou Claude e cole cada imagem com a pergunta "descreva o que você vê, e diga se conseguiria usar isso para responder uma busca sobre <tópico relacionado>". O que o modelo diz que falta é seu backlog de re-fotografia.
Fontes: OpenAI GPT-4V system card (2023-09-25), Google Gemini 1.5 paper (2024-02-15) arXiv:2403.05530, OpenAI GPT-4o announcement (2024-05-13), Anthropic Claude 3.5 Sonnet vision (2024-06-20), Schema.org ImageObject (versão 28.0).
Capítulo 20
Context Window Economy: quando vale mandar o repo inteiro
Janelas de 1M e 2M tokens mudam a equação. Mas não anulam o custo.
Context window é o limite de tokens que um modelo aceita por requisição (input + output). Em 2022, ChatGPT trabalhava com 4k tokens. Em 2024, GPT-4 Turbo subiu para 128k. Em fevereiro de 2024, Google anunciou Gemini 1.5 Pro com 1 milhão de tokens, expandido para 2 milhões em maio de 2024. Em 2025, Anthropic lançou Claude com 200k padrão e 1M em modos beta para uso enterprise. Em 2026, Claude Opus 4.7 1M context é GA, e Gemini 2.5 Pro mantém 2M.
A pergunta tática é direta: com janela tão grande, ainda vale fazer RAG? A resposta honesta é "depende de três variáveis": custo por token, latência aceitável, e qualidade de attention em contexto longo. Cada uma muda o cálculo.
Custo: input em Claude Opus 4.7 1M custa US$ 15 por milhão de tokens (input cache miss) em janeiro 2026. Mandar um repo de 800k tokens custa US$ 12 por chamada antes do output. Se você consulta esse repo 50 vezes por dia, é US$ 600 diários sem cache. Prompt caching da Anthropic corta para US$ 1,50 (cache hit, 90% off) por chamada subsequente. Gemini 2.5 Pro com context caching tem economia equivalente. A conta muda completamente com cache.
Latência: time-to-first-token cresce sublinearmente com tamanho do contexto, mas cresce. 1M tokens significam 8 a 15 segundos para começar a responder em modelos GA de 2026. Em RAG bem feito, busca + geração ficam abaixo de 2 segundos. Para chat interativo, RAG vence. Para análise batch noturna, contexto longo vence porque você não dorme menos por causa de latência.
Qualidade de attention: o paper Liu et al. 2023 "Lost in the Middle" (arXiv:2307.03172) documentou que modelos perdem informação posicionada no meio de contexto longo. Modelos de 2024-2026 melhoraram, mas o efeito persiste em parte. Em testes "needle-in-haystack", Gemini 2.5 e Claude Opus 4.7 acham agulha em 99%+ de profundidade até 500k tokens. Acima disso, recall cai. Confiar em "ele vai lembrar de tudo" é otimismo perigoso.
Heurísticas operacionais 2026
Repo pequeno (<200k tokens) que muda pouco: cache inteiro, contexto longo, RAG desnecessário.
Base que muda toda hora (catálogo, ticket, documento corporativo): RAG. Cache de contexto invalida rápido demais.
Análise one-shot de PDF de 500 páginas: contexto longo. Não vale a engenharia de RAG para uma tarefa única.
Atendimento ao cliente em produção: RAG. Latência manda, cache híbrido (system prompt cacheado + chunks recuperados) ganha.
Reasoning sobre código grande (refactor, security review): contexto longo vence. Estrutura cruzada de arquivos importa.
Cálculo prático: análise de manual técnico de 600 páginas
Context window de 2M tokens é como ter uma sala de reuniões enorme. Cabe a empresa inteira na sala. Vale convocar todo mundo? Só se a decisão exige todos juntos. Se você precisa decidir o cardápio do almoço, chama só a equipe de cozinha. RAG é a equipe de cozinha. Contexto longo é o all-hands. Cada um tem hora.
Exercício
Liste três tarefas em que sua empresa usa LLM. Para cada uma, conte: tokens do contexto típico, frequência de execução por dia, latência aceitável. Calcule custo mensal nos dois cenários (contexto longo cacheado vs RAG). Provavelmente uma das três muda de cenário se você fizer a conta. Engenheiros raramente fazem essa conta antes de codar.
Fontes: Google Gemini 1.5 paper (2024-02-15) arXiv:2403.05530, Anthropic prompt caching docs (2024-08-14, expandido 2025), Liu et al. (2023) "Lost in the Middle" arXiv:2307.03172, Anthropic Claude Opus 4.7 1M context release (2026-01), OpenAI Cookbook "Long context strategies" (2025-09).