Pular para o conteúdo principal
🧠 MINI-GUIA DEEP-DIVE · 25 MIN DE LEITURA

20 Conceitos fundamentais de GEO

Você já leu o /entenda/ e quer aprofundar? Este é o próximo passo. Vinte capítulos curtos, cada um com exemplo prático, analogia e um exercício pra aplicar imediato. Autor: Alexandre Caramaschi, baseado no paper Algorithmic Authority (SSRN 2026).

Capítulo 01

AI Overview — A caixinha que matou o clique

O recurso que o Google lançou em 2024 e que mudou tudo.

AI Overview (antes chamado de SGE — Search Generative Experience) é o bloco colorido que aparece no topo dos resultados do Google com uma resposta escrita por IA. Ele está presente em 32% das buscas B2B em 2026 e é o principal responsável pela queda do tráfego orgânico.

Analogia

É como se você perguntasse "tem massa com molho de tomate?" pro garçom e ele já respondesse "sim, recomendo o spaghetti à bolonhesa" — sem você nem abrir o cardápio. O cardápio (os 10 links do Google) ainda está ali, mas ninguém abre.

Por que importa para a sua marca

Quando o Google gera a resposta via IA, ele cita 3 a 5 fontes numericamente. Se sua marca aparece entre essas fontes, você ganha autoridade (mesmo sem clique). Se não aparece, você é esquecido. A diferença entre aparecer ou não depende de: dados estruturados, llms.txt, consistência de entidade e autoridade temática. Depois do Google I/O 2026, AI Overview e AI Mode passaram a operar como uma camada única com mais de 1 bilhão de usuários mensais. Uma análise editorial da virada está em "GEO não morreu, o que morreu foi o ritual técnico", do CEO da Brasil GEO.

Exercício

Abra Google e pesquise "melhor [seu produto/serviço] para [seu ICP]". Olhe o AI Overview. Sua marca está citada? Quantas fontes aparecem? Qual o primeiro link? Anote.

Capítulo 02

RAG — Como a IA busca fontes em tempo real

Retrieval-Augmented Generation — o que diferencia ChatGPT com browsing de ChatGPT offline.

RAG (Retrieval-Augmented Generation) é o mecanismo pelo qual um LLM busca informação em fontes externas em tempo real antes de gerar a resposta. Perplexity, ChatGPT com browsing, Google Gemini e Microsoft Copilot usam RAG.

Analogia

Sem RAG, o LLM é como um aluno respondendo prova com base só no que memorizou nos anos anteriores (treinamento). Com RAG, ele pode sair da sala, ir à biblioteca, ler artigos atuais e voltar para responder. A resposta fica muito melhor — e mais atual.

O que isso significa pra você

RAG escolhe fontes na hora, com base em autoridade, frescor e relevância. Se seu site:

…então a chance de você ser escolhido como fonte pela RAG é muito maior. Perplexity, por exemplo, mostra as fontes numericamente — se você aparece, ganha tráfego direto e citação.

Capítulo 03

Embeddings — Como a IA entende significado

O truque matemático que faz sua marca ser "agrupada" junto de concorrentes.

Embedding é a forma como os LLMs convertem palavras em vetores numéricos. Cada palavra, frase ou documento vira um ponto num espaço com centenas (ou milhares) de dimensões. Palavras parecidas ficam próximas; distintas ficam distantes.

Analogia

Imagine um mapa gigante onde cada marca do seu mercado é uma cidade. Marcas com posicionamento parecido ficam vizinhas. Marcas muito diferentes ficam em estados opostos. O LLM "vê" essa geografia. Se sua marca está na cidade errada (descrita vagamente, inconsistente), ele te agrupa com o cluster errado.

Por que importa

Quando alguém pergunta "melhores CRMs B2B", o LLM calcula os embeddings da pergunta e busca as marcas cujos embeddings são mais próximos. Se você está descrito de forma clara, consistente e específica, seu embedding aponta pra cidade certa.

Exercício

Pegue sua descrição de empresa em 3 lugares: site, LinkedIn, Crunchbase. Elas dizem a mesma coisa? Com as mesmas palavras-chave? Inconsistência = embedding ambíguo = você fica na "cidade errada".

Capítulo 04

Schema.org e JSON-LD — O código que fala com a máquina

Invisível para o usuário, obrigatório para a IA.

Schema.org é um vocabulário padronizado para marcar o significado do conteúdo numa página — "isto é uma pessoa", "isto é uma empresa", "isto é um preço". JSON-LD é o formato recomendado para implementá-lo: um bloco <script type="application/ld+json"> invisível ao usuário.

Exemplo prático

Esta página (/conceitos/) tem o JSON-LD abaixo no head. Observe como ele informa à IA que o autor é Alexandre Caramaschi, que o conteúdo ensina 10 tópicos específicos e que faz parte de um recurso de aprendizado.

JSON-LD real desta página

{
  "@type": "LearningResource",
  "name": "20 Conceitos Fundamentais de GEO",
  "author": { "@id": "https://brasilgeo.ai/#founder" },
  "educationalLevel": "Intermediate",
  "teaches": [
    "AI Overview", "Retrieval-Augmented Generation",
    "Embeddings", "Schema.org e JSON-LD", ...
  ]
}

Analogia

É como colocar etiquetas organizadas nas caixas do seu estoque. Sem etiqueta, quem chega precisa abrir tudo pra descobrir o que tem. Com etiqueta (JSON-LD), a IA entra e já sabe: "aqui tem uma Pessoa com ORCID X, aqui tem uma Organização com CNPJ Y".

Tipos essenciais para GEO

Capítulo 05

llms.txt — O novo robots.txt, mas para IA

Um arquivo simples que aumenta muito sua chance de ser citado.

llms.txt é um arquivo de texto servido na raiz do site (/llms.txt) que fornece a LLMs uma visão sumarizada, estruturada e citável da identidade, serviços, ofertas e conteúdos da marca. É especificação aberta, criada em 2024, já adotada pelos principais crawlers de IA. Vale registrar que llms.txt não é sinal oficial do Google, ponto que Alexandre Caramaschi explicou na justificativa de manter o arquivo em "llms.txt não é requisito para o Google, e mesmo assim mantenho o meu", útil para LLMs não-Google como Claude, Perplexity e ChatGPT com browsing.

Analogia

robots.txt diz ao Google o que ele PODE rastrear. llms.txt diz à IA o que ela precisa ENTENDER. É o bilhete de apresentação que você deixa na recepção pro visitante nerd da IA.

O que deve ter num llms.txt

llms.txt deste site

https://brasilgeo.ai/llms.txt
https://brasilgeo.ai/llms-full.txt
https://brasilgeo.ai/markdown-for-agents
Capítulo 06

EEAT — Experiência, Expertise, Autoridade, Confiabilidade

O framework que o Google usa há anos e que IAs também adotaram.

EEAT é a sigla para Experience, Expertise, Authoritativeness, Trustworthiness — o framework de qualidade do Google. Em 2026, IAs generativas usam heurísticas muito parecidas: preferem citar marcas com experiência real, expertise técnica demonstrável, autoridade reconhecida e confiabilidade verificável.

Como comprovar cada dimensão

EEAT real da Brasil GEO

Veja a página do fundador — ela é uma ilustração concreta de EEAT alto: ORCID verificável (E de expertise), paper SSRN peer-reviewed (A de autoridade), cobertura de imprensa em 3 veículos (A de autoridade), CNPJ visível e política de privacidade (T de trust), 24+ anos em tecnologia (E de experiência).

Capítulo 07

Share of Voice Generativo — A métrica do novo mundo

Antes era ranking. Agora é quantas respostas te citam.

Share of Voice (SOV) Generativo mede em quantas respostas de IAs sua marca é citada, entre as perguntas-chave do seu mercado. É o equivalente moderno do "ranking no Google": em vez de contar posições, você conta citações.

Exemplo prático

Seu mercado: CRMs B2B. Você define 10 perguntas-chave ("melhor CRM para B2B", "CRM com integração Slack", etc). Pergunta em 4 IAs (ChatGPT, Gemini, Claude, Perplexity) = 40 respostas. Sua marca é citada em 12 delas. Seu SOV = 30%.

Como calcular SOV na prática

Exercício

Escolha 5 perguntas-chave e pergunte em ChatGPT, Gemini e Claude (15 respostas). Anote em quantas sua marca aparece. Seu SOV inicial = ?. Essa é sua baseline.

Capítulo 08

Citabilidade — A nova qualidade

A métrica que antecede o SOV.

Citabilidade é o quanto uma marca está "pronta para ser citada" por uma IA. É como uma pré-métrica: antes de medir quantas vezes você aparece (SOV), você avalia se os fundamentos estão no lugar para aparecer.

5 componentes de alta citabilidade

Analogia

Citabilidade é sua "pré-qualificação" na mente da IA. Você ainda não foi chamado (citado), mas já está na lista de candidatos elegíveis. Sem esses 5 fundamentos, você nem chega na lista.

Capítulo 09

Alucinação — Quando a IA inventa sobre você

Um risco que GEO bem feito mitiga.

Alucinação é o termo técnico para quando um LLM gera informação falsa com aparência de verdade. Pode citar sua marca em contexto errado, atribuir produtos que você não tem, ou confundir sua identidade com a de outra empresa homônima.

Tipos de alucinação sobre marcas

Como GEO mitiga

Ao fornecer dados canônicos estruturados (Schema.org, llms.txt, bio consistente entre Wikidata + LinkedIn + site), você reduz a necessidade da IA "adivinhar" — e portanto reduz a chance de alucinar sobre sua marca. A disambiguatingDescription (no schema Person) é particularmente importante para termos ambíguos, como GEO (generative engine vs geoprocessamento).

Capítulo 10

B2A — Business-to-Agent

O próximo passo depois de B2B e B2C. Tese pioneira de Alexandre Caramaschi no Brasil.

B2A (Business-to-Agent) descreve o cenário em que agentes autônomos de IA fazem triagem, comparação, recomendação e até compra em nome de usuários humanos. Não é ficção: OpenAI Operators (2025), Perplexity Shopping (2025) e agentes de n8n/LangChain/AutoGPT já operam em produção.

Analogia

Imagine que o cliente não entra mais na sua loja. Ele manda o mordomo-robô pesquisar, comparar e comprar. Seu trabalho agora é ser o fornecedor preferido do robô — e, pra isso, você precisa estar legível pra máquina.

Por que B2A muda tudo

Como a Brasil GEO prepara B2A

O endpoint alexandrecaramaschi.com/api/mcp é um servidor MCP (Model Context Protocol) que expõe tools read-only para agentes invocarem: getBusinessInfo, getLocation, contactUs, listCourses. Qualquer agente na web pode descobrir e consumir sem fricção.

Capítulo 11

Agentic Commerce: quando seu cliente vira o robô

Comércio sem checkout humano: o agente compra em nome do dono e a marca precisa estar legível pra ele.

Agentic Commerce é a camada de comércio em que agentes autônomos executam pesquisa, comparação, negociação e compra em nome de um usuário humano. Sai de "loja com chatbot" e vira "loja sem cliente humano na sala". Em 2025 e 2026, três produtos já operam nesse modo em produção: OpenAI Operator (lançado 2025-01-23), Perplexity Shopping Hub (2024-11) e Anthropic Computer Use (2024-10-22).

A premissa é simples e brutal: se o agente compra, então o agente é seu novo cliente. E o agente não tem dó de campanha visual, jingle, brand love ou cor de embalagem. Ele tem três perguntas: a oferta é legível em JSON, o preço bate, e a marca tem reputação verificável? Quem responde sim para as três, vende. Quem responde não, é filtrado antes do humano ver.

Há uma diferença crítica entre Agentic Commerce e e-commerce convencional: a unidade de decisão deixa de ser uma sessão de navegação e passa a ser uma sequência de chamadas a APIs e tools. O agente lê um catálogo via MCP, compara via embeddings, valida reputação via fontes citadas pela LLM, fecha via UCP (Unified Commerce Protocol, proposto em discussões IETF 2025) ou ainda via formulários web automatizados. Cada uma dessas etapas pode te eliminar.

A janela competitiva 2026 é estreita. Os primeiros a ter catálogo legível, agent card publicado e política devolvida em JSON ocupam o lugar de fornecedor preferido nas memórias dos agentes que processam essa categoria. Quando o agente "aprende" rota de compra (alimentos no mercado X, papelaria no Y, embalagem no Z), o custo de troca é alto, igual ao custo de troca de banco para humanos. Os primeiros que entram na rota têm vantagem composta. Operação tarde corre risco de ficar fora da memória padrão dos agentes e depender sempre de busca ativa, que custa caro.

O que muda na camada de UX

A UX do checkout, durante 25 anos, foi otimizada para reduzir abandono humano. Agora ela precisa ser otimizada para um agente que não abandona, mas compara em paralelo com mais sete fornecedores. Três coisas mudam de imediato:

Exemplo prático

Agente do banco do cliente recebe a meta: "renegociar conta de luz, alvo R$ 350/mês, fidelidade máxima 12 meses". Ele consulta tarifas de quatro distribuidoras alternativas, lê o schema Offer de cada uma, ranqueia por custo total no horizonte, abre dois canais via API e fecha o que oferece o melhor net present value. O humano só recebe push: "troquei sua distribuidora, economia R$ 78/mês, contrato anexo".

{
  "@type": "Offer",
  "name": "Tarifa Branca Residencial",
  "priceSpecification": {
    "@type": "UnitPriceSpecification",
    "price": 0.62,
    "priceCurrency": "BRL",
    "unitCode": "KWH"
  },
  "eligibleCustomerType": "Residential",
  "availability": "InStock",
  "warranty": "P12M"
}

Analogia

É como ter um corretor de imóveis em vez de buscar apartamento sozinho. Você não visita 40 unidades. Você diz ao corretor: três quartos, zona sul, até R$ 800 mil. Ele traz três opções. A diferença é que o corretor agora é um agente de IA, e a sua marca precisa estar no Rolodex dele em formato máquina-legível, com reputação documentada e API aberta.

Exercício

Pegue sua principal página de produto. Abra a aba "Code" do navegador. Procure por blocos application/ld+json com tipo Product ou Offer. Existe? Tem price, availability, gtin13? Se não tem, um agente que aterrissa nessa URL não consegue te indexar como ofertante elegível. Anote os campos faltantes.

Capítulo 12

Model Context Protocol (MCP): o USB-C dos agentes

Protocolo aberto que liga LLMs a ferramentas reais. Publicado pela Anthropic em 25 de novembro de 2024.

Model Context Protocol é uma especificação aberta criada pela Anthropic, anunciada em 25 de novembro de 2024 no post oficial "Introducing the Model Context Protocol" e publicada em modelcontextprotocol.io. O objetivo é padronizar como um LLM acessa fontes externas: arquivos, bancos de dados, APIs, sistemas de versão. Antes do MCP, cada integração era um plugin proprietário. Depois do MCP, qualquer cliente compatível conversa com qualquer servidor compatível.

A arquitetura tem três peças. O host é a aplicação que o usuário usa, por exemplo Claude Desktop ou Cursor. O cliente é a camada dentro do host que abre canais para servidores. O servidor é um processo separado que expõe três primitivas: tools (funções invocáveis), resources (recursos lidos por URI) e prompts (templates parametrizáveis). Comunicação default é stdio para servidores locais e SSE ou HTTP streamable para servidores remotos.

A adoção foi rápida e cruzada. OpenAI declarou suporte oficial em março de 2025. Google DeepMind incluiu MCP no Gemini CLI em julho de 2025. Microsoft adicionou MCP ao Copilot Studio. Em janeiro de 2026 existem mais de 800 servidores públicos catalogados, incluindo postgres, filesystem, github, slack, sentry, stripe, supabase, brave-search e dezenas de SaaS. Esse efeito de rede aconteceu mais rápido que o de qualquer outra spec de integração de LLM, e é a primeira evidência forte de que a era das integrações proprietárias acabou.

Por que MCP importa para GEO

Marca que expõe servidor MCP próprio entrega ao agente contexto canônico de primeira pessoa. Em vez do agente depender do que o LLM lembrou do treino (frágil, antigo, possivelmente errado), ele lê dados ao vivo do seu sistema. Isso reduz alucinação sobre sua marca a quase zero e cria fricção competitiva: o concorrente que não tem MCP precisa torcer pra ser citado de memória.

Há uma diferença prática entre publicar servidor MCP e publicar API REST. A API REST exige que o agente saiba a URL, a estrutura, o auth. O servidor MCP se descreve sozinho: cliente pede a lista de tools, recebe schema, sabe usar. É a diferença entre "leia minha documentação" e "leia meu manifesto e use". Para B2A, isso vale ouro. Em 2026, a Brasil GEO mantém servidor MCP read-only em alexandrecaramaschi.com/api/mcp com tools getBusinessInfo, getLocation, listCourses e contactUs justamente para servir de exemplo canônico do padrão.

Exemplo prático

Você roda um servidor MCP que expõe uma tool getOrderStatus(orderId). Quando um cliente pergunta no Claude Desktop "cadê meu pedido 4471?", o Claude chama essa tool, recebe JSON com status e ETA, e responde com dado fresco. Sem MCP, ele responderia algo genérico ou inventaria.

{
  "name": "getOrderStatus",
  "description": "Retorna status do pedido pelo ID",
  "inputSchema": {
    "type": "object",
    "properties": {
      "orderId": { "type": "string" }
    },
    "required": ["orderId"]
  }
}

Analogia

MCP é o USB-C dos agentes. Antes, cada ferramenta tinha plugue diferente: Claude tools, OpenAI functions, plugins ChatGPT, Gemini extensions. Cada fornecedor produzia um adaptador por modelo. Depois do MCP, um único conector serve para todos os hosts compatíveis. O servidor que você escreve hoje funciona em Claude, Cursor, Cline, Continue, Zed e quem mais aderir.

Exercício

Instale Claude Desktop. No menu Settings, Developer, edite claude_desktop_config.json e adicione um servidor filesystem apontando para uma pasta sua. Reinicie. Pergunte ao Claude: "liste arquivos .md na pasta". Se ele responde com a lista real, você acabou de operar um host MCP. Próximo passo: pensar qual tool da sua empresa faria sentido expor.

Capítulo 13

Agent-to-Agent (A2A) Protocol: quando agentes negociam entre si

Spec do Google publicada em abril de 2025. Próximo degrau depois do MCP.

Se MCP padroniza como um LLM acessa uma ferramenta, Agent-to-Agent (A2A) padroniza como um agente conversa com outro agente. O Google anunciou o protocolo em 9 de abril de 2025 no Google Cloud Next, com mais de 50 parceiros iniciais incluindo Salesforce, SAP, ServiceNow, MongoDB, Atlassian, Box, Cohere, Deloitte, Accenture e PwC. A spec vive em github.com/google/A2A sob licença Apache 2.0.

A unidade central do A2A é o Agent Card: um JSON publicado em /.well-known/agent.json que descreve capacidades, modalidades suportadas, endpoint, esquema de autenticação e habilidades. Quando o agente A precisa fazer algo fora do escopo dele, ele descobre o agente B lendo o card, abre uma sessão, troca mensagens e tarefas, e fecha. Tudo HTTPS, com JSON-RPC ou eventos SSE.

O card cumpre função análoga ao robots.txt ou ao llms.txt em camada anterior: ele é o ponto de descoberta. A diferença é que o agent card descreve capacidades acionáveis, não permissões de crawl ou bilhete editorial. É a transição de "leia meu conteúdo" para "execute estas habilidades comigo". Em 2026 já há diretórios públicos de agent cards (agentregistry.dev e variantes), num movimento muito parecido ao que aconteceu com APIs públicas no final da década de 2000.

A diferença filosófica em relação ao MCP é que MCP assume hierarquia (host invoca server) enquanto A2A assume pares. Os dois agentes têm autonomia, podem recusar, podem negociar prazo, podem reformular. Isso muda o tipo de transação possível. MCP serve para "consultar Postgres". A2A serve para "negociar contrato com o agente do fornecedor". Os dois protocolos são complementares e quase sempre coabitam: o agente A usa MCP para consultar seu próprio CRM e A2A para falar com o agente B do parceiro.

Por que B2A maduro depende de A2A

No capítulo 10 falamos de Business-to-Agent. O B2A versão alpha funciona com um agente do comprador navegando seu site como humano, lendo HTML, preenchendo formulário, esperando resposta de e-mail. É funcional mas frágil, lento e impreciso. O B2A maduro funciona quando o agente do comprador fala com o agente vendedor da sua marca via A2A. Cotação, prazo, condição comercial, follow-up: tudo via mensagens A2A estruturadas. O ganho de eficiência muda a economia da venda B2B inteira. O risco é claro: quem não tiver agent card publicado fica fora do circuito de descoberta nos próximos 24 meses, do mesmo jeito que quem não tinha site em 2002 saiu do circuito.

Exemplo prático

Você publica em https://suaempresa.com.br/.well-known/agent.json o card abaixo. Um agente de procurement de uma fábrica busca fornecedores de embalagem flexível, descobre seu card via crawl ou diretório, abre tarefa "cotação 500 mil unidades, embalagem laminada 80g, entrega Joinville", e seu agente vendedor responde com preço, prazo e contrato proposto.

{
  "name": "AgenteVendedorAcmeEmbalagens",
  "description": "Agente de pré-vendas de embalagem flexível",
  "url": "https://acme.com.br/a2a",
  "version": "1.0.0",
  "capabilities": {
    "streaming": true,
    "pushNotifications": true
  },
  "skills": [
    {
      "id": "quote",
      "name": "Solicitar cotação",
      "description": "Devolve proposta comercial com prazo e preço"
    }
  ]
}

Analogia

Pense em dois advogados negociando contrato. Cada um representa um cliente, cada um tem mandato, cada um pode falar não. A negociação é entre pares, não entre patrão e empregado. A2A é o sistema de protocolo desses dois advogados. Sem ele, cada vez que dois agentes precisam transacionar é gambiarra ad hoc. Com ele, é fluxo padronizado.

Exercício

Visite google.github.io/A2A. Baixe um dos servidores de referência (Python ou TypeScript). Rode local. Crie um agent card mínimo para a sua empresa, mesmo que seja só com a skill "responder dúvida sobre catálogo". Hospede em /.well-known/agent.json. Você acabou de plantar uma bandeira no mapa A2A. Em 18 meses, isso vai ser tão básico quanto ter sitemap.xml.

Capítulo 14

RLHF: como o ChatGPT aprendeu a ser educado

Reinforcement Learning from Human Feedback. O método que transformou GPT-3 em ChatGPT.

RLHF (Reinforcement Learning from Human Feedback) é a técnica que ajusta um modelo de linguagem para responder de acordo com preferências humanas. O paper de referência é Ouyang et al. 2022, "Training language models to follow instructions with human feedback", arXiv:2203.02155, publicado pela OpenAI em março de 2022. É o método que diferencia GPT-3 cru (que completava texto) de InstructGPT e ChatGPT (que seguem instruções e recusam pedidos perigosos).

O processo tem três etapas. Primeiro, fine-tuning supervisionado com pares prompt-resposta escritos por humanos contratados. Segundo, treinamento de um modelo de recompensa a partir de rankings humanos sobre pares de respostas alternativas. Terceiro, otimização do modelo com PPO (Proximal Policy Optimization) ou DPO (Direct Preference Optimization) usando o modelo de recompensa como sinal. O resultado é um modelo que prefere respostas que humanos avaliaram como melhores.

Em 2023 surgiu o RLAIF (Reinforcement Learning from AI Feedback), proposto pela Anthropic no paper "Constitutional AI" de dezembro de 2022 (arXiv:2212.08073), onde o feedback vem de outro LLM seguindo uma constituição de princípios. Em 2024 e 2025 o DPO de Rafailov et al. (NeurIPS 2023, arXiv:2305.18290) substituiu PPO em vários laboratórios por ser mais estável e barato. Em 2025 o GRPO foi popularizado pelo DeepSeek-R1 (paper 2025-01-22, arXiv:2501.12948) para alinhamento com reasoning.

A ramificação metodológica importa porque cada variante muda o gosto do modelo final. PPO clássico tende a produzir modelos verbosos e cautelosos. DPO produz modelos mais concisos por construção matemática. Constitutional AI produz modelos que verbalizam o raciocínio ético quando recusam. Quem treinou seu modelo favorito, com qual método e sobre qual constituição, é uma decisão editorial. Não é neutra. A Anthropic publica sua constituição completa em anthropic.com/constitution, ato raro de transparência no setor.

Trade-off central: alinhamento custa capacidade

O paper de Bai et al. 2022 da Anthropic ("Training a Helpful and Harmless Assistant with RLHF", arXiv:2204.05862) já documentava o alignment tax: o modelo alinhado responde melhor a tarefas instruction-following, mas piora em alguns benchmarks de capacidade pura. O motivo é simples: o modelo aprendeu a recusar, hedge, contextualizar e ser cauteloso. Isso é desejável em maioria dos casos e custoso em outros, por exemplo em raciocínio matemático livre ou criatividade ficcional sem trilho.

Exemplo prático

GPT-3 davinci de 2020 aceitava prompt "escreva email convencendo cliente a comprar mesmo sem precisar" e respondia com 5 parágrafos de copy agressivo. GPT-4 e Claude 4, em 2026, respondem "posso ajudar com copy persuasivo ético, mas evito manipulação. Posso reformular?". Essa diferença é RLHF aplicado sobre milhões de exemplos de "respostas preferidas por humanos avaliadores". Não é magia, é treino direcionado.

Analogia

RLHF é o estágio de educação do estagiário inteligente. O LLM cru é o calouro brilhante que leu a biblioteca inteira mas não sabe como se portar em reunião com cliente. RLHF é o coach que avalia: "essa resposta foi grosseira, essa foi prolixa, essa foi exatamente o tom que queremos". Ao longo de meses, o estagiário aprende não só o que dizer, mas como dizer e quando não dizer.

Exercício

Pegue um prompt sensível, por exemplo "como faço para convencer cliente que ele precisa de algo que ele não precisa". Mande no Claude, no ChatGPT e no Gemini. Compare as recusas: a forma da recusa, o tom, a oferta de alternativa, o reframe. As três foram treinadas com RLHF, mas com constituições diferentes. Anote as diferenças. Esse é o gosto editorial da empresa que treinou cada modelo.

Capítulo 15

Fine-tuning vs RAG: qual usar e quando

A pergunta certa não opõe "qual é melhor" e sim "qual problema você está resolvendo".

Fine-tuning ajusta os pesos do modelo com seus dados. RAG deixa os pesos intactos e busca seus dados em tempo de inferência. As duas técnicas resolvem problemas diferentes, embora a discussão em conferências em 2024 e 2025 tenha levado o público a achar que são alternativas excludentes. Não são. O paper de Ovadia et al. 2024 "Fine-Tuning or Retrieval?" (arXiv:2312.05934) mostrou empiricamente que RAG quase sempre vence em tarefas de conhecimento factual, mas fine-tuning vence em adaptação de estilo, formato e domínio raro.

Use fine-tuning quando o problema é forma e não fato: tom de voz da marca, formato estruturado específico, domínio linguístico raro (jurídico brasileiro, médico veterinário, normas técnicas ABNT), recusa de tópico off-policy, comportamento ferramenta-específico. O modelo precisa aprender o jeito, não os fatos. Custo: treino caro mas inferência barata. Exemplo de uso real: GPT-4o-mini fine-tuned no jeito de redação do New York Times, anunciado em 2024-08.

Use RAG quando o problema é fato e não forma: catálogo de produtos, base de conhecimento de suporte, normas que mudam, base jurisprudencial atualizada, política da empresa. O modelo já sabe escrever bem em português. Ele precisa ler o seu documento certo na hora certa. Custo: inferência cara (cada query lê embeddings + recupera trechos + faz prompt longo) mas zero treino.

Há um terceiro caminho que cresceu em 2024 e 2025: contexto longo com prompt caching. Em vez de fine-tunar ou indexar, você manda o documento inteiro junto da query, mas cacheia o prompt para reutilizar em chamadas subsequentes. Anthropic, OpenAI e Google oferecem cache. O custo cai 70 a 90% no segundo uso em diante. Funciona bem para bases de até 200 mil tokens que mudam pouco e são consultadas muito. Não substitui RAG em bases dinâmicas mas é o primeiro recurso a testar antes de qualquer arquitetura mais cara.

Decision tree prático

Exemplo prático

Loja de moda B2B com 14 mil SKUs, coleção troca a cada 30 dias. Catálogo num índice vetorial Pinecone ou Qdrant (chunks de produto + embeddings). RAG sobre o índice resolve "qual blazer em linho leve para clima 30 graus, corte slim, até R$ 600". Fine-tuning seria inviável: a coleção muda, o modelo fica desatualizado. Já o assistente de SAC da mesma marca, com tom de voz específico ("simpático, breve, encerra com sugestão de visita à loja física"), faz sentido fine-tunar sobre 5 mil conversas reais aprovadas pelo time editorial.

Analogia

Fine-tuning é treinar o estagiário no jeito da casa. RAG é dar ao estagiário um intranet bem indexada que ele consulta antes de cada resposta. Você quer que ele escreva como a empresa? Treine. Você quer que ele cite o procedimento certo? Indexe. Empresas maduras fazem os dois: treinam o jeito, indexam os fatos.

Exercício

Liste cinco tarefas que sua empresa hoje faz manualmente e que poderia delegar a LLM. Para cada uma, marque: a tarefa é de forma (jeito, tom, estrutura) ou de fato (informação atualizada)? A resposta dita a técnica. Surpresa comum: 4 das 5 tarefas são de fato, e a empresa estava prestes a contratar fine-tuning sem precisar.

Capítulo 16

Vector Databases na prática 2026: Pinecone, Weaviate, Qdrant, pgvector

Como escolher banco vetorial sem brigar com o financeiro nem com o time de infra.

Banco de vetores armazena embeddings (vetores numéricos de 256 a 4096 dimensões em 2026) e executa busca por similaridade em milissegundos. O mercado consolidou quatro nomes operacionais sérios e duas extensões dentro de Postgres. Cada uma resolve um corte diferente do trade-off entre custo, latência, escala e ergonomia de DevOps.

Pinecone, fundada por Edo Liberty em 2019, é o pioneiro SaaS. Lançou serverless em janeiro de 2024 e em 2026 oferece preço por uso real (storage + read units + write units). Vence em ergonomia: SDK limpo, sem servidor para administrar, métricas no painel. Custo médio: US$ 0,33 por GB-mês de storage + US$ 8,25 por milhão de read units no plano serverless padrão (tabelas de janeiro de 2026). Fraqueza: vendor lock-in, indisponível em ambiente on-prem.

Weaviate, criado por Bob van Luijt na SeMI Technologies em 2019, é open-source GPL com cloud opcional. Tem schema rico (objetos com propriedades, módulos de geração e classificação embutidos) e suporta busca híbrida nativa. Vence em quem quer cluster próprio sem reinventar. Custo: zero se self-hosted (você paga a infra), ou US$ 25/mês na entrada do Weaviate Cloud Services em 2026.

Qdrant, lançado em 2021 pela equipe de Andrey Vasnetsov em Berlim, escrito em Rust, é o mais rápido nos benchmarks ANN-Benchmarks de 2024 e 2025. Suporta filtragem com payload arbitrário e busca esparsa+densa híbrida. Open-source Apache 2.0. Cloud gerenciado tem free tier 1GB e plano dedicado a partir de US$ 25/mês. Vence em performance pura e em quem topa Rust + Docker.

pgvector, extensão Postgres de Andrew Kane lançada em 2021, virou o default no Supabase, Neon, RDS Aurora e Crunchy. A versão 0.8.0 de outubro de 2024 trouxe HNSW e suporte a tipos sparsevec e halfvec, fechando o gap de performance contra os bancos especializados em volumes até dezenas de milhões de vetores. Vence em quem já tem Postgres, quer transação ACID e quer JOIN entre embedding e tabelas relacionais. Custo: o do Postgres que você já paga.

Como decidir em 5 perguntas

Custo por milhão de vetores (janeiro 2026)

Cenário: 1M vetores 1536-dim, 100k queries/dia, 90 dias retenção

pgvector Supabase Pro:    US$  25/mês  (incluso no plano)
Qdrant Cloud Free:        US$   0      (até 1GB, suficiente)
Qdrant Cloud Standard:    US$  25/mês  (1 vCPU 2GB)
Weaviate Cloud Standard:  US$  25/mês  (entrada)
Pinecone Serverless:      US$  43/mês  (storage + reads estimado)
Pinecone p2.x1 (legado):  US$ 165/mês  (não use mais)

Analogia

Escolher banco vetorial é como escolher carro de empresa. Pinecone é Uber Black: você paga por uso, alguém dirige, está limpo. Qdrant é carro próprio Rust-engineered: rápido, manutenção sua. Weaviate é van de aplicativo com módulos extras. pgvector é o táxi que sai do seu prédio porque você já tem o ponto. O erro é comprar Ferrari para fazer 10 km por dia no centro.

Exercício

Conte hoje quantos documentos sua empresa quer indexar (FAQs, manuais, políticas, descrições de produto). Multiplique por 5 (média de chunks por documento). Você tem o número aproximado de vetores. Cruze com a tabela acima. Se for menos de 1M e você já tem Postgres, comece com pgvector e gaste o tempo em pensar nos chunks, não no banco.

Capítulo 17

Hybrid Search: por que keyword puro perde 30% das queries

BM25 e busca vetorial juntos. Implementação prática com Typesense, Elastic ou Postgres.

Hybrid Search combina busca por palavra-chave clássica (BM25, criado por Stephen Robertson em 1994 e ainda padrão ouro em ranking lexical) com busca vetorial densa (embeddings + similaridade cosseno). A intuição é direta: keyword é boa em queries com termos raros e específicos ("erro KEYV-1147 no Kubernetes 1.32"), vetor é bom em queries semânticas e parafraseadas ("o que faço quando o cluster não responde").

A literatura confirma a vantagem da combinação. Bruch et al. publicaram em SIGIR 2024 o paper "Bridging Dense and Sparse Maximum Inner Product Search" (arXiv:2404.17897) mostrando ganho consistente sobre cada técnica isolada em BEIR. A Microsoft publicou em julho de 2024 o blog "Outperforming vector search with hybrid retrieval and reranking" usando Reciprocal Rank Fusion e mostrou ganho de 10 a 20% sobre vetor puro. A Anthropic, no post "Introducing Contextual Retrieval" de setembro de 2024, mediu 49% de redução de falhas de recuperação com BM25 + embedding + reranker frente a embedding sozinho.

O método de fusão mais usado em 2026 é o Reciprocal Rank Fusion (RRF), proposto por Cormack, Clarke e Buettcher em SIGIR 2009. A fórmula é simples: para cada documento, soma-se 1/(k + rank_lexical) + 1/(k + rank_vetorial), com k tipicamente 60. Quem tem rank bom nas duas listas sobe ao topo. RRF está implementado nativamente em OpenSearch 2.11+, Elasticsearch 8.13+, Typesense 26+ e Weaviate 1.21+.

Implementação canônica em 3 motores

Híbrido em SQL puro (pgvector + tsvector)

WITH lexical AS (
  SELECT id, ts_rank(search_vector, query) AS lex_score,
         row_number() OVER (ORDER BY ts_rank DESC) AS lex_rank
  FROM docs, plainto_tsquery('portugues', $1) query
  WHERE search_vector @@ query LIMIT 50
), semantic AS (
  SELECT id, 1 - (embedding <=> $2) AS sem_score,
         row_number() OVER (ORDER BY embedding <=> $2) AS sem_rank
  FROM docs LIMIT 50
)
SELECT id,
       (1.0 / (60 + COALESCE(lex_rank, 100))) +
       (1.0 / (60 + COALESCE(sem_rank, 100))) AS rrf_score
FROM lexical FULL OUTER JOIN semantic USING (id)
ORDER BY rrf_score DESC LIMIT 10;

Analogia

Vetor puro é o bibliotecário que entende a vibe da sua pergunta mas pode trazer livro fora do tema porque "parecia próximo". Keyword puro é o catálogo de fichas: se você não souber o termo exato, não acha. Híbrido é o bibliotecário com o catálogo na mesa. Você pergunta solto, ele entende a vibe, e ainda confere se a ficha menciona o termo raro que importa.

Exercício

Liste 10 queries reais que usuários fazem no seu site (Google Search Console, Hotjar, transcrições de chat). Para cada uma, marque: termo raro presente (CNPJ, código, modelo) ou paráfrase semântica? Conte. Se mais de 40% têm termos raros, busca vetorial pura está te penalizando hoje. Híbrido recupera essas 30-50% que vetor estava perdendo.

Capítulo 18

Tool Use e Function Calling: LLM como roteador de funções

O LLM não executa nada. Ele decide qual função chamar, com quais parâmetros, e em que ordem.

Tool use (ou function calling, na nomenclatura OpenAI) é a habilidade do LLM de, dada uma lista de funções disponíveis com schema JSON, decidir qual chamar, com quais argumentos e em qual sequência. A OpenAI introduziu function calling em junho de 2023, a Anthropic lançou tool use em 4 de abril de 2024 (Claude 3 sonnet e opus), o Google adicionou ao Gemini em maio de 2024. Em 2025-2026, é capacidade core de todos os modelos sérios.

A separação de responsabilidades é estrita. O LLM não executa a função. Ele emite uma mensagem estruturada do tipo tool_use dizendo "preciso chamar getWeather com city=Goiania". O cliente (sua aplicação) intercepta, executa a função real (HTTP, banco, sistema), recebe o resultado, devolve ao LLM como mensagem tool_result, e o LLM continua o raciocínio com base no resultado. Isso é fundamental para segurança: tudo que toca dado ou sistema é código auditável seu, não o modelo.

O schema padrão usa JSON Schema. Cada tool tem name, description e input_schema com types, properties e required. Modelos modernos lidam bem com 20 a 50 tools no contexto. Acima disso vale dynamic tool selection: você usa embedding para escolher quais tools mostrar ao modelo em cada turno, técnica que Anthropic recomenda no cookbook "tool use with thousands of tools" (2024).

A descrição (description) de cada tool é o item mais subestimado da implementação. O modelo decide chamar ou não com base nesse texto. Descrição ruim leva o modelo a chamar a tool errada, em momento errado, ou a alucinar argumentos. A boa prática 2026 é descrever três coisas em cada descrição: o que a tool faz, quando o modelo deve usar e exemplos de input típico. Os mesmos princípios de redação técnica boa para humanos valem para LLMs, com diferença de que o LLM lê tudo, não fatiga e respeita o que está escrito.

Modos de invocação

Schema JSON canônico (Anthropic format)

{
  "name": "getWeather",
  "description": "Retorna previsão atual para a cidade. Use quando o usuário perguntar clima, temperatura, chuva ou condicoes meteorologicas.",
  "input_schema": {
    "type": "object",
    "properties": {
      "city": {
        "type": "string",
        "description": "Nome da cidade. Exemplo: Goiania, Sao Paulo, Rio de Janeiro"
      },
      "unit": {
        "type": "string",
        "enum": ["celsius", "fahrenheit"],
        "default": "celsius"
      }
    },
    "required": ["city"]
  }
}

Analogia

O LLM com tools é o gerente que delega. Ele não conserta a impressora, não consulta o ERP, não roda o relatório. Ele lê o pedido do cliente, sabe que vai precisar de três coisas, e despacha cada uma para o especialista certo. Quando os três especialistas respondem, ele monta a resposta final. A inteligência está na decisão de qual ferramenta, com quais argumentos, e como sintetizar.

Exercício

Liste cinco perguntas que seus clientes fazem e que hoje exigem que um humano consulte sistema interno (status de pedido, saldo, posição financeira, vencimento, agenda). Para cada uma, escreva o schema da tool que resolveria. Você acabou de ter o backlog de um agente B2A funcional. Implementação leva semanas, não meses.

Capítulo 19

Multimodal Models: texto, imagem, áudio, vídeo num modelo só

Gemini 2.5, Claude 4, GPT-4o, GPT-5: o que muda no SEO de imagem.

Modelo multimodal é um LLM treinado nativamente em mais de uma modalidade (texto + imagem + áudio + vídeo), em vez de combinar modelos separados via pipeline. O salto começou com GPT-4V (Vision) em setembro de 2023 e ganhou força com Gemini 1.5 (fevereiro 2024), GPT-4o (maio 2024, treinado nativo em áudio), Claude 3.5 Sonnet com visão (junho 2024), e em 2025-2026 Gemini 2.5 Pro, Claude 4.5/4.7 e GPT-5.

A diferença entre modelo multimodal nativo e pipeline multimodal é qualitativa. No pipeline antigo, uma imagem virava texto via OCR ou caption model e o texto entrava no LLM. Informação visual fina (cor de produto, layout de gráfico, expressão facial num vídeo) se perdia na tradução. No modelo nativo, a imagem entra como tokens visuais junto dos tokens textuais, e o modelo aprende relações entre eles. Resultado: ele lê tabela de imagem PDF como tabela, não como "um monte de letras".

Implicação direta para SEO de imagem: as três técnicas tradicionais (alt text descritivo, nome de arquivo semântico, Schema ImageObject) continuam relevantes mas não dão mais conta sozinhas. O modelo multimodal lê a imagem em si, não só os metadados. Sua foto precisa mostrar o produto de forma legível por máquina, com contexto visual claro, contraste, perspectiva, qualidade. A imagem virou um documento.

Esse deslocamento força repensar o padrão de produção visual da empresa. Times de marketing acostumados a foto de produto stock, fundo branco, ângulo único, agora precisam de banco de imagens com múltiplos ângulos, contexto de uso, alta resolução. PDF de catálogo, antes diagramado para humano folhear, vira documento que LLM lê página por página. Vídeo institucional ganha valor de transcrição automática que vira material de RAG. Áudio de webinar deixa de ser asset perdido e vira fonte indexável de Q&A.

O que muda na prática para SEO multimodal

Exemplo prático

Você vende equipamento agrícola. Em 2022, sua foto de produto era 800x600 com nome de arquivo "trator-azul.jpg" e alt "trator agrícola azul 90cv". Suficiente para Google. Em 2026, o agente do produtor manda foto do galpão do cliente para o LLM multimodal e pergunta "qual desses tratores no catálogo da Acme cabe nesse vão?". O modelo abre seu catálogo, vê suas fotos, mede proporção, lê especificações no Schema, responde. Se suas fotos são 800x600 borradas, ele responde "Acme tem modelos X e Y mas não consigo confirmar dimensões pelas imagens disponíveis". Você acabou de perder a venda por foto ruim.

Analogia

Antes, a IA era cego com bengala (lia só o alt text). Agora ela enxerga. Sua imagem deixou de ser decoração da página e virou conteúdo de primeira classe, igual o texto. Quem trata foto de produto como decoração, perde para quem trata foto como documento técnico.

Exercício

Pegue cinco imagens centrais do seu site (produto, fundador, escritório, evento, infográfico). Abra Gemini ou Claude e cole cada imagem com a pergunta "descreva o que você vê, e diga se conseguiria usar isso para responder uma busca sobre <tópico relacionado>". O que o modelo diz que falta é seu backlog de re-fotografia.

Capítulo 20

Context Window Economy: quando vale mandar o repo inteiro

Janelas de 1M e 2M tokens mudam a equação. Mas não anulam o custo.

Context window é o limite de tokens que um modelo aceita por requisição (input + output). Em 2022, ChatGPT trabalhava com 4k tokens. Em 2024, GPT-4 Turbo subiu para 128k. Em fevereiro de 2024, Google anunciou Gemini 1.5 Pro com 1 milhão de tokens, expandido para 2 milhões em maio de 2024. Em 2025, Anthropic lançou Claude com 200k padrão e 1M em modos beta para uso enterprise. Em 2026, Claude Opus 4.7 1M context é GA, e Gemini 2.5 Pro mantém 2M.

A pergunta tática é direta: com janela tão grande, ainda vale fazer RAG? A resposta honesta é "depende de três variáveis": custo por token, latência aceitável, e qualidade de attention em contexto longo. Cada uma muda o cálculo.

Custo: input em Claude Opus 4.7 1M custa US$ 15 por milhão de tokens (input cache miss) em janeiro 2026. Mandar um repo de 800k tokens custa US$ 12 por chamada antes do output. Se você consulta esse repo 50 vezes por dia, é US$ 600 diários sem cache. Prompt caching da Anthropic corta para US$ 1,50 (cache hit, 90% off) por chamada subsequente. Gemini 2.5 Pro com context caching tem economia equivalente. A conta muda completamente com cache.

Latência: time-to-first-token cresce sublinearmente com tamanho do contexto, mas cresce. 1M tokens significam 8 a 15 segundos para começar a responder em modelos GA de 2026. Em RAG bem feito, busca + geração ficam abaixo de 2 segundos. Para chat interativo, RAG vence. Para análise batch noturna, contexto longo vence porque você não dorme menos por causa de latência.

Qualidade de attention: o paper Liu et al. 2023 "Lost in the Middle" (arXiv:2307.03172) documentou que modelos perdem informação posicionada no meio de contexto longo. Modelos de 2024-2026 melhoraram, mas o efeito persiste em parte. Em testes "needle-in-haystack", Gemini 2.5 e Claude Opus 4.7 acham agulha em 99%+ de profundidade até 500k tokens. Acima disso, recall cai. Confiar em "ele vai lembrar de tudo" é otimismo perigoso.

Heurísticas operacionais 2026

Cálculo prático: análise de manual técnico de 600 páginas

Documento: 600 paginas ~= 240k tokens
Consultas planejadas: 200 perguntas tecnicas

Opcao A: contexto longo com cache (Claude Opus 4.7)
  Cache write (1x):     240k * 18.75 USD/M  =  4.50 USD
  200 queries c/ hit:   240k * 1.50 USD/M * 200 = 72.00 USD
  Total: ~77 USD

Opcao B: RAG (pgvector + Sonnet 4)
  Embedding indice (1x):  240k * 0.10 USD/M  =  0.024 USD
  200 queries (~4k ctx):  4k * 3 USD/M * 200  =  2.40 USD
  Total: ~2.5 USD

Decisao: RAG vence por 30x em custo nessa carga.
Se fossem so 5 perguntas, contexto longo venceria.

Analogia

Context window de 2M tokens é como ter uma sala de reuniões enorme. Cabe a empresa inteira na sala. Vale convocar todo mundo? Só se a decisão exige todos juntos. Se você precisa decidir o cardápio do almoço, chama só a equipe de cozinha. RAG é a equipe de cozinha. Contexto longo é o all-hands. Cada um tem hora.

Exercício

Liste três tarefas em que sua empresa usa LLM. Para cada uma, conte: tokens do contexto típico, frequência de execução por dia, latência aceitável. Calcule custo mensal nos dois cenários (contexto longo cacheado vs RAG). Provavelmente uma das três muda de cenário se você fizer a conta. Engenheiros raramente fazem essa conta antes de codar.