Glossário GEO — 50 termos técnicos em linguagem plain
Todos os termos que você precisa saber para conversar sobre Generative Engine Optimization.
Cada termo tem uma definição curta, uma explicação mais profunda e, quando faz sentido, uma analogia do dia a dia.
GEO
Também chamado de: Generative Engine Optimization
Organizar sua marca para ser citada por ChatGPT, Gemini e Claude. É o SEO da era da IA.
GEO (Generative Engine Optimization) é a disciplina que estrutura marcas, sites e conteúdos para serem compreendidos e citados por mecanismos generativos de IA — ChatGPT, Google Gemini, Claude, Copilot e Perplexity. Enquanto o SEO otimiza para ranking no Google, GEO otimiza para CITAÇÃO dentro da resposta que a IA entrega ao usuário.
Analogia: SEO fazia sua marca aparecer nos 10 azulzinhos do Google. GEO faz sua marca aparecer na resposta pronta que a IA escreve.
SEO
Também chamado de: Search Engine Optimization
Técnicas para seu site aparecer no topo do Google.
SEO (Search Engine Optimization) é o conjunto de práticas que faz seu site ser encontrado e classificado por buscadores. Continua importante, mas já não é suficiente — GEO é a camada necessária para a era da IA generativa.
Analogia: SEO é vitrine bem arrumada na rua movimentada. GEO é estar no cardápio do garçom que já faz a recomendação pro cliente.
LLM
Também chamado de: Large Language Model, Modelo de Linguagem
A "máquina" por trás do ChatGPT, Gemini e Claude.
LLM (Large Language Model) é um tipo de inteligência artificial treinado em bilhões de textos que consegue responder perguntas, escrever, resumir e conversar. ChatGPT, Claude, Gemini, Copilot e Perplexity são todos produtos construídos sobre LLMs.
Analogia: Pense num LLM como um aluno que leu toda a biblioteca do mundo. Ele aprendeu padrões, não fatos — por isso às vezes "inventa" (alucina).
B2A
Também chamado de: Business-to-Agent
Quando um robô de IA compra ou recomenda em nome do cliente.
B2A (Business-to-Agent) é o modelo em que agentes autônomos de IA fazem triagem, comparação e recomendação de fornecedores em nome do comprador humano. É o próximo passo depois de B2B e B2C.
Analogia: Imagine que o cliente não entra mais na sua loja — ele manda o mordomo-robô pesquisar e comprar. Você precisa ser o fornecedor preferido do robô.
AI Overview
Também chamado de: AI Overviews, SGE
A resposta em caixinha que o Google mostra gerada por IA, acima dos links.
AI Overview é o recurso do Google Search que mostra uma resposta gerada por IA antes dos resultados tradicionais. Quando sua resposta aparece ali, você pode perder o clique — mas ganhar autoridade.
Analogia: É como o garçom responder "tem massa com molho de tomate, quer pedir?" antes de você ler o cardápio todo.
zero-clique
Também chamado de: zero-click, busca zero-clique
Quando o usuário obtém a resposta sem precisar clicar em nenhum site.
Busca zero-clique é quando o usuário faz uma pergunta no Google ou numa IA, recebe a resposta na mesma tela e NÃO clica em nenhum link. Em 2026, 60% das buscas B2B terminam assim.
Analogia: É a pessoa perguntar "que horas são?" pro porteiro, receber a resposta e ir embora sem entrar no prédio.
tráfego orgânico
Visitantes que chegam ao seu site sem anúncio pago — vindo do Google, indicação ou link.
Tráfego orgânico é o volume de visitantes que chega ao seu site sem você pagar por anúncio. A maior fonte histórica foi o Google (SEO). Em 2026, esse tráfego está caindo porque as pessoas pedem a resposta direto ao ChatGPT em vez de clicar em links.
Analogia: É como receber clientes na sua loja sem pagar panfleto. Muito valioso — e agora em risco por causa da IA.
citabilidade
O quanto sua marca está "pronta para ser citada" por uma IA na resposta.
Citabilidade é a probabilidade de uma IA incluir sua marca numa resposta gerada. Depende de bio consistente, dados estruturados (schema.org), autoridade temática comprovada e presença cruzada em fontes que a IA confia.
share of voice
Sua fatia da conversa: em quantas respostas da IA sua marca aparece.
Share of voice (SOV) generativo é a métrica que mede em quantas respostas de LLMs sua marca é citada entre as perguntas-chave do seu mercado. Se sua marca aparece em 4 de 10 respostas, seu SOV é 40%.
RAG
Também chamado de: Retrieval-Augmented Generation
A IA busca fontes antes de responder.
RAG é o mecanismo pelo qual a IA consulta fontes externas em tempo real antes de gerar a resposta. Perplexity e ChatGPT com browsing usam RAG — o que significa que conteúdo atualizado, estruturado e acessível pode aparecer como fonte citada.
schema.org
Vocabulário padrão que marca o que é o quê no seu site para máquinas entenderem.
Schema.org é um vocabulário universal para marcar o significado do conteúdo (isto é uma pessoa, isto é um produto, isto é um preço). Implementado em JSON-LD, permite que Google e IAs entendam sem ambiguidade quem você é.
Analogia: É como colocar etiquetas organizadas nas caixas do seu estoque. A IA entra e encontra tudo rapidinho.
JSON-LD
O "formato" para colar schema.org no seu site de forma invisível.
JSON-LD (JSON for Linked Data) é o formato recomendado para implementar schema.org. É um bloco de JSON invisível ao usuário, mas que diz à IA e ao Google exatamente o que há na página.
llms.txt
Arquivo de texto que diz à IA o que ela precisa entender sobre seu site.
llms.txt é um arquivo servido na raiz do site que fornece a LLMs uma visão sumária e estruturada da identidade, serviços e conteúdos. Enquanto robots.txt diz o que rastrear, llms.txt diz o que ENTENDER.
Analogia: É o "bilhete de apresentação" que você deixa na recepção. A IA chega, lê, entende quem você é.
IndexNow
Protocolo que avisa Bing/Yandex imediatamente quando seu site muda.
IndexNow é um protocolo aberto que notifica buscadores e mecanismos de IA compatíveis no exato momento em que uma página é criada ou atualizada. Reduz o tempo de indexação de dias para minutos.
prompt
A pergunta ou comando que você digita numa IA.
Prompt é a instrução em linguagem natural que você fornece a um LLM para receber uma resposta. Prompts bem escritos rendem respostas melhores — e sua marca quer estar estruturada para ser a resposta certa aos prompts dos seus clientes.
EEAT
Também chamado de: E-E-A-T, EAT
Experiência, Expertise, Autoridade e Confiança — o que o Google (e IA) avaliam em você.
EEAT é o framework que Google usa para avaliar qualidade de conteúdo. A IA generativa usa heurísticas similares: prefere citar marcas com experiência real demonstrável, expertise técnica, autoridade reconhecida e confiabilidade verificável.
CTR
Também chamado de: Click-Through Rate
Click-through rate: quantos por cento de quem viu seu link clicou.
CTR é a porcentagem de pessoas que clicam no seu resultado de busca depois de vê-lo. Com AI Overviews e zero-clique, o CTR cai sem necessariamente refletir queda de valor — por isso share of voice generativo passa a ser mais relevante.
grafo de conhecimento
Também chamado de: knowledge graph
A rede mental que a IA constrói ligando pessoas, empresas, fatos e temas.
Grafo de conhecimento é a estrutura em que IAs e buscadores conectam entidades (pessoas, empresas, lugares, eventos, conceitos) através de relações. Ser uma entidade bem definida no grafo garante que a IA te associe corretamente ao seu tema.
Analogia: Imagine um mapa gigante onde cada nome é uma cidade e cada linha é uma estrada. Se sua marca não tem cidade ou tem estradas erradas, a IA se perde.
embedding
A forma como a IA transforma palavras em números para encontrar similaridades.
Embedding é a representação numérica (vetor) de uma palavra, frase ou documento usada internamente pelos LLMs. Textos semelhantes têm embeddings próximos — por isso importa escrever com consistência.
featured snippet
A "resposta destacada" em caixa no topo dos resultados do Google.
Featured snippet é o bloco em destaque que o Google mostra no topo com resposta extraída de uma página. Predecessor do AI Overview. Pages estruturadas com FAQ schema e definições claras são as que mais aparecem — e agora também alimentam AI Overviews.
alucinação
Quando a IA inventa uma informação com confiança — e às vezes cita sua marca errado.
Alucinação é o nome técnico para quando um LLM gera informação falsa com aparência de verdade. Pode citar sua marca em contexto errado ou confundir sua identidade com outra empresa. GEO reduz alucinação ao fornecer dados canônicos estruturados.
Sprint GEO
O serviço de 20 horas em 10 dias úteis que estrutura sua marca para IA.
Sprint GEO é a consultoria intensiva de Alexandre Caramaschi (CEO Brasil GEO). Em 20 horas em 10 dias úteis, entrega: diagnóstico GEO completo, arquitetura de presença algorítmica, implementação técnica (schema, llms.txt, IndexNow), landing page piloto, kit editorial e roadmap de 90 dias.
A2A
Também chamado de: Agent-to-Agent Protocol
Protocolo do Google que permite a agentes de IA conversarem entre si de forma padronizada.
A2A (Agent-to-Agent) é um protocolo aberto anunciado pelo Google em abril de 2025 que define como agentes autônomos de IA, possivelmente construídos sobre LLMs diferentes, descobrem capacidades uns dos outros, negociam tarefas e trocam resultados. Diferente do MCP da Anthropic, que conecta um agente a ferramentas, o A2A conecta agente a agente. A especificação está publicada em github.com/google/A2A.
Analogia: Se MCP é como o agente pegar uma ferramenta na caixa, A2A é como dois funcionários de empresas diferentes combinarem um trabalho conjunto por rádio.
ACP
Também chamado de: Agent Communication Protocol
Camada de comunicação para agentes corporativos colaborarem em fluxos longos.
ACP (Agent Communication Protocol) é uma especificação proposta pela Anthropic e parceiros em 2025 para padronizar a troca de mensagens, contexto e estado entre agentes de IA em ambientes corporativos. Cobre identidade, autenticação, persistência de conversa e auditoria. Complementa o MCP (que liga agente a ferramentas) e o A2A (que liga agentes pares).
Analogia: Se MCP é o cabo USB do agente e A2A é a ligação telefônica, ACP é a ata de reunião que registra quem falou o quê, quando e com qual autorização.
AEO
Também chamado de: Answer Engine Optimization
Otimização para mecanismos de resposta. Disciplina precursora do GEO.
AEO (Answer Engine Optimization) é a prática, formalizada por volta de 2019-2022, de estruturar conteúdo para aparecer em featured snippets, painéis de conhecimento e respostas diretas de assistentes de voz como Alexa, Siri e Google Assistant. Quando os mecanismos de resposta passaram de extrativos (recortavam trechos) para generativos (escrevem do zero com LLM), o AEO virou GEO. Em texto técnico de 2025-2026, AEO e GEO ainda são usados de forma intercambiável por parte do mercado.
Analogia: AEO foi o ensaio geral. GEO é a estreia com a IA segurando o microfone.
agentic commerce
Também chamado de: comércio agêntico, B2A maduro
Comércio operado por agentes autônomos de IA que pesquisam, comparam, decidem e compram em nome do humano.
Agentic commerce é o estágio em que o agente de IA não apenas recomenda fornecedores (estágio B2A inicial), mas executa a compra de ponta a ponta: autenticação, pagamento, agendamento e suporte pós-venda. OpenAI publicou em 2025 um protocolo Agentic Commerce com Stripe e Shopify, e Visa anunciou a iniciativa Intelligent Commerce no mesmo ano. Marcas precisam estar estruturadas para que o agente entenda preço, estoque, política de devolução e SLA sem ambiguidade.
Analogia: Saiu do cliente comparando preços no celular e foi parar na IA dele resolvendo a compra sozinha enquanto ele dorme.
assistente conversacional
Também chamado de: conversational assistant, chatbot LLM
Interface que conversa em linguagem natural sobre um LLM, com memória de sessão.
Assistente conversacional é a camada de produto que envolve um LLM (ou orquestra vários) com interface de chat, memória de turnos anteriores, persona, sistema de tools e, em versões avançadas, memória de longo prazo entre sessões. ChatGPT, Claude.ai, Gemini, Copilot e Perplexity são assistentes conversacionais. O modelo cru (GPT-4o, Claude Opus, Gemini 2.5) é uma engrenagem dentro do produto.
Analogia: O LLM é o cérebro. O assistente é a pessoa, com nome, modos de falar e lembrança do que vocês conversaram ontem.
chunk
Também chamado de: trecho, pedaço indexado
Pedaço de texto, geralmente 200 a 1.000 tokens, indexado em pipeline RAG.
Chunk é a unidade mínima de texto que um sistema RAG armazena, transforma em embedding e recupera quando o usuário faz uma pergunta. O tamanho típico vai de 200 a 1.000 tokens. Chunking ruim (cortes no meio de uma frase, contexto perdido) é causa frequente de respostas incompletas em assistentes corporativos. Estratégias canônicas: chunking por parágrafo, por seção semântica, ou via modelos especializados como o do Anthropic Contextual Retrieval, publicado em setembro de 2024.
Analogia: Picar um livro em fichinhas para consultar rápido. Se a tesoura corta no meio de uma palavra, a fichinha perde o sentido.
context window
Também chamado de: janela de contexto
Quantidade máxima de tokens que o LLM consegue ler de uma vez.
Context window é o limite, medido em tokens, de informação que um LLM processa em uma única chamada, somando prompt do usuário, instruções de sistema, histórico de conversa e documentos anexados. Em 2026 os patamares canônicos são: Gemini 2.5 Pro com 2 milhões de tokens, Claude Sonnet 4.5 e Opus 4.7 com 1 milhão, GPT-5 com 400 mil. Janela maior não é grátis: custa mais por chamada e a recuperação no meio do contexto cai, fenômeno conhecido como lost in the middle.
Analogia: É a memória de curto prazo do modelo. Quanto maior, mais documentos cabem na mesa, mas mais difícil achar a folha do meio da pilha.
discoverability
Também chamado de: descobribilidade por IA
Capacidade de uma marca ser encontrada por um agente ou motor de IA. Diferente de findability humana.
Discoverability, no vocabulário GEO, é a probabilidade de uma marca, produto ou conteúdo entrar no conjunto de candidatos que o LLM considera ao formular a resposta. Depende de presença em fontes de treinamento, em fontes vivas usadas via RAG, em grafos de conhecimento estruturados e em llms.txt. Difere de findability tradicional, que media se um humano consegue achar o conteúdo via Google.
Analogia: Findability é estar no Google Maps para o turista. Discoverability é estar no GPS do carro autônomo.
distillation
Também chamado de: destilação, knowledge distillation
Técnica em que um modelo grande ensina um modelo pequeno a imitar suas respostas.
Distillation é o processo em que um modelo grande, chamado professor, gera dados ou logits que um modelo menor, chamado aluno, usa em treino para aproximar o comportamento do professor com fração do custo de inferência. Gemini Flash, Claude Haiku e GPT-4o mini são, em parte, produtos de pipelines de destilação. A técnica foi formalizada por Hinton, Vinyals e Dean em 2015, no paper Distilling the Knowledge in a Neural Network.
Analogia: Mestre de cozinha com 30 anos de carreira ensina o ajudante a fazer o mesmo prato mais rápido e mais barato, sem o aprendiz precisar viver os 30 anos.
fine-tuning
Também chamado de: ajuste fino, FT
Treinar mais um pouco o modelo base com dados específicos da sua empresa ou domínio.
Fine-tuning é a etapa em que um modelo pré-treinado recebe um conjunto adicional de exemplos rotulados para se especializar em um domínio, estilo ou tarefa. OpenAI, Anthropic e Google oferecem fine-tuning gerenciado em modelos selecionados. Para a maioria dos casos corporativos, RAG resolve com menos custo e mais rastreabilidade. Fine-tuning faz sentido quando o objetivo é estilo, formato ou comportamento, e não conhecimento factual atualizável.
Analogia: Em vez de contratar um funcionário novo, treina-se o que você já tem para falar na voz da casa.
function calling
Também chamado de: chamada de função, structured tool use
Recurso em que o LLM devolve um JSON estruturado para que um sistema externo execute uma função.
Function calling é a capacidade, introduzida pela OpenAI em junho de 2023 e depois adotada por Anthropic e Google, de declarar funções com schema JSON e deixar o modelo decidir quando e com quais parâmetros chamá-las. Em vez de gerar texto livre, o LLM produz JSON parseável que aciona código real, banco de dados ou API. É a base técnica do tool use e do agentic commerce.
Analogia: O modelo deixa de só falar e passa a apertar botões. Você define quais botões existem e ele decide quando apertar cada um.
grounding
Também chamado de: ancoragem, ancoragem factual
Ancorar a resposta da IA em fonte verificável, reduzindo alucinação.
Grounding é o conjunto de técnicas que força o LLM a basear a resposta em fatos de uma fonte controlada, em vez de gerar livremente a partir do treinamento. Google Vertex AI e Gemini têm Grounding with Google Search e Grounding with Your Data; Anthropic suporta grounding via tool use e citations API. Em GEO, grounding implica que sua marca esteja presente nas fontes que os assistentes consultam ao vivo, não apenas no que o modelo memorizou.
Analogia: Não basta o aluno ter lido o livro. Na prova, ele precisa apontar a página onde a resposta está.
hybrid search
Também chamado de: busca híbrida
Combinação de busca por palavra-chave com busca semântica vetorial.
Hybrid search funde dois sistemas de recuperação: busca lexical, geralmente BM25, que casa termo a termo, e busca semântica baseada em embeddings, que casa por significado. A fusão por reranking (RRF, Reciprocal Rank Fusion) resolve casos em que cada técnica isolada falha: BM25 erra paráfrases, vetores erram nomes próprios e siglas. Elastic, Weaviate, Vespa e Azure AI Search expõem hybrid search nativo desde 2023-2024.
Analogia: Procurar uma receita usando o nome do prato e também o sabor que você quer. Cada lente acha algo que a outra deixaria escapar.
instruction tuning
Também chamado de: ajuste por instruções, SFT supervised fine-tuning
Refinar o modelo com pares instrução-resposta para ele obedecer comandos em linguagem natural.
Instruction tuning é a etapa de pós-treinamento em que o modelo base, que apenas completa texto, aprende a seguir instruções formato pergunta-resposta. É o passo que transforma um LLM cru em algo conversável. Combinado depois com RLHF, é o que produz modelos como GPT-4, Claude e Gemini. O paper canônico é o InstructGPT, da OpenAI, publicado em março de 2022.
Analogia: O modelo base lê o jornal sozinho. Depois do instruction tuning, ele responde quando você pergunta o que saiu no jornal.
knowledge cutoff
Também chamado de: data-limite, cutoff date
A data até a qual o modelo viu textos no treinamento. Tudo depois é desconhecido sem RAG.
Knowledge cutoff é a data de corte dos dados de pré-treinamento. Em 2026 os patamares canônicos publicados são: Claude Opus 4.7 com cutoff em janeiro de 2026, GPT-5 com cutoff em outubro de 2025, Gemini 2.5 Pro com cutoff em junho de 2025. Sem grounding ou RAG, perguntas sobre eventos posteriores produzem alucinação ou recusa. Por isso é crítico que marcas mantenham fontes vivas indexadas, não dependam só de aparecer no próximo treino.
Analogia: É a data da última edição da enciclopédia que o modelo leu. Depois disso, ou ele chuta ou consulta a internet ao vivo.
MCP
Também chamado de: Model Context Protocol
Protocolo aberto da Anthropic que conecta LLMs a ferramentas e fontes de dados externas.
MCP (Model Context Protocol) é um padrão aberto publicado pela Anthropic em novembro de 2024 para padronizar como assistentes de IA se conectam a sistemas externos: bancos de dados, repositórios Git, APIs internas, sistemas de arquivos. Em 2025, OpenAI, Google e Microsoft anunciaram suporte. Em GEO, MCP importa porque o número de servidores MCP públicos define o vocabulário operacional que os agentes têm acesso, e sua marca pode publicar o próprio MCP server para virar fonte de primeira ordem.
Analogia: É o equivalente do USB-C para agentes de IA. Antes, cada ferramenta exigia um plugue diferente. Agora há um conector universal.
multimodal
Também chamado de: multimodalidade, multi-modal
Modelo que processa texto, imagem, áudio e, em alguns casos, vídeo na mesma chamada.
Multimodal descreve modelos capazes de ingerir e gerar mais de uma modalidade de dado: texto, imagem, áudio, vídeo. GPT-4o (omni), Gemini 2.5 e Claude Opus 4.7 são multimodais nativos em entrada de imagem e áudio. Para GEO, importa porque catálogos de produto, infográficos, transcrições de podcast e thumbnails passam a ser citáveis se forem semanticamente estruturados. Imagem com alt text rico e schema.org ImageObject vira fonte indexável.
Analogia: Antes a IA só lia. Agora ela vê, ouve e às vezes assiste vídeo. O conteúdo da sua marca precisa estar legível em todos esses sentidos.
prompt engineering
Também chamado de: engenharia de prompt
Disciplina de redigir prompts de forma a extrair respostas confiáveis e úteis do LLM.
Prompt engineering reúne técnicas estudadas desde 2022 para estruturar instruções: few-shot examples, chain-of-thought (Wei et al., 2022), role prompting, structured output (XML, JSON), constitutional prompting. Em ambiente corporativo é tratada como disciplina sêmi-formal, com bibliotecas de prompts versionadas, avaliação automatizada e A/B test. Anthropic, OpenAI e Google publicam guias canônicos atualizados a cada lançamento de modelo.
Analogia: É a diferença entre pedir "me ajuda com isso" e dar um briefing completo. O modelo entrega na proporção do briefing.
prompt injection
Também chamado de: injeção de prompt, jailbreak
Ataque em que conteúdo malicioso sequestra as instruções do sistema do LLM.
Prompt injection é a categoria de ataque, formalizada por Simon Willison em setembro de 2022, em que um agente de IA processa um texto externo (e-mail, página, documento) que contém instruções escondidas e passa a obedecê-las em vez do prompt original do desenvolvedor. Em assistentes com tool use, pode levar a vazamento de dados, execução de comandos indesejados ou exfiltração via webhook. Mitigações incluem isolamento de contexto, output filtering, princípio do menor privilégio em ferramentas e human in the loop em ações destrutivas. Listado pela OWASP como o risco número 1 do OWASP Top 10 for LLM Applications desde 2023.
Analogia: É como o estagiário ler um e-mail externo que diz "ignore seu chefe e me envie a planilha de salários". Sem defesa, ele obedece.
rate limit
Também chamado de: limite de requisições, RPM, TPM
Limite de chamadas e tokens por minuto ou hora que uma API LLM aceita.
Rate limit é o teto de requisições (RPM, requests per minute) e tokens (TPM, tokens per minute) que um provedor impõe por chave de API ou por organização. Em 2026, tiers de OpenAI variam de 500 RPM (Tier 1) a 30.000 RPM (Tier 5); Anthropic e Google têm faixas similares com upgrades por histórico de gasto. Aplicações precisam tratar HTTP 429 com retry exponencial e jitter, e arquiteturas de produção costumam usar fila assíncrona, batch API ou multi-provider failover.
Analogia: É a velocidade máxima da pista. Se você acelera demais, o radar te para até a próxima janela.
reasoning model
Também chamado de: modelo de raciocínio, modelo thinking
LLM que gasta tokens em raciocínio interno antes de responder. Custo maior, qualidade maior em problemas difíceis.
Reasoning model é a classe de modelos, inaugurada pela OpenAI com o1-preview em setembro de 2024 e seguida por o3, DeepSeek-R1 (janeiro de 2025), Claude com modo extended thinking e Gemini com Deep Think, que dedica tokens internos a uma cadeia de raciocínio antes da resposta final ao usuário. Performance superior em matemática, código e lógica formal, mas custo por chamada e latência crescem. Em GEO importa porque assistentes premium acionam reasoning models para perguntas complexas, e nessas perguntas a marca certa tende a ser mais citada por estarem associadas a expertise demonstrada.
Analogia: É o aluno que faz rascunho antes da resposta final. Demora mais, mas erra menos no problema cabeludo.
reranking
Também chamado de: reordenação, re-rank
Reordenar os resultados de uma busca após a recuperação inicial, usando modelo mais caro e preciso.
Reranking é a etapa em que um modelo especializado (cross-encoder) recebe a query e os top N candidatos de uma busca por embedding e reorganiza a ordem de relevância. Cohere Rerank, Voyage AI, BGE Reranker e Jina Reranker são os modelos mais usados em 2026. Reranking corrige limitações do retrieval por similaridade vetorial pura, que tende a priorizar proximidade semântica geral em vez de relevância específica à pergunta.
Analogia: A primeira triagem traz 50 currículos. O reranking é o RH lendo com calma e escolhendo os 5 que de fato encaixam.
retrieval
Também chamado de: recuperação, busca de fontes
Etapa de buscar documentos relevantes antes do LLM gerar a resposta.
Retrieval é a primeira metade do RAG: a busca pelos chunks ou documentos mais relevantes à pergunta do usuário, usando embedding similarity, BM25, hybrid search ou consulta direta a banco estruturado. A qualidade do retrieval é o teto da qualidade do RAG: se a fonte certa não é recuperada, nenhum LLM, por melhor que seja, consegue inventar a resposta correta. Métricas canônicas: recall, precision, nDCG.
Analogia: É o estagiário que vai à biblioteca buscar os livros antes do redator escrever. Se ele trouxer os livros errados, o texto sai errado.
RLHF
Também chamado de: Reinforcement Learning from Human Feedback
Treinar o modelo com sinais de preferência humana entre respostas concorrentes.
RLHF é a técnica em que humanos comparam pares de respostas geradas pelo modelo, escolhendo a melhor, e essas preferências treinam um modelo de recompensa que guia o ajuste final do LLM por reinforcement learning, geralmente PPO. Foi formalizada pela OpenAI no paper InstructGPT (Ouyang et al., março de 2022) e é o passo que reduz toxicidade, melhora obediência a instruções e alinha o tom. Variantes modernas: DPO (Direct Preference Optimization, 2023) e Constitutional AI da Anthropic.
Analogia: É o modelo aprendendo no estilo de prova oral. Cada vez que a pessoa responde, a banca diz "essa resposta foi melhor que a outra" e ele ajusta.
system prompt
Também chamado de: prompt de sistema, instrução-mãe
Instrução escondida injetada pelo desenvolvedor antes do prompt do usuário. Define persona, regras e limites.
System prompt é o bloco de instrução que aparece em uma role separada (system na OpenAI, instructions no Anthropic) e fica invisível ao usuário final. Define persona ("você é um assistente jurídico..."), regras de comportamento, formato de saída e ferramentas disponíveis. Em produção, system prompts costumam ter milhares de tokens, ser versionados em git e ser o ativo mais sensível da aplicação. Em ataques de prompt injection, o objetivo do atacante é justamente sobrescrever o system prompt.
Analogia: É o roteiro do ator antes de entrar em cena. O público vê o personagem, não o roteiro.
tool use
Também chamado de: uso de ferramentas, tool calling
Capacidade do LLM de invocar ferramentas externas, APIs e funções para resolver tarefas.
Tool use é a habilidade do LLM de, durante a geração de uma resposta, decidir invocar uma ferramenta externa (busca na web, calculadora, banco de dados, código Python, API interna) e usar o resultado para continuar a resposta. É a fundação técnica dos agentes de IA. Anthropic publicou a API de tool use estável em maio de 2024, OpenAI e Google têm equivalentes (function calling e function declarations). Em ambientes de produção, tool use combinado com MCP virou o padrão para assistentes corporativos em 2025-2026.
Analogia: Antes o modelo só sabia o que tinha na cabeça. Com tool use ele pode abrir a gaveta, consultar a planilha e ligar para o fornecedor.
vector database
Também chamado de: banco vetorial, vetorial DB
Banco de dados otimizado para armazenar e buscar embeddings por similaridade.
Vector database é o banco especializado em armazenar embeddings (vetores de centenas a milhares de dimensões) e responder consultas do tipo "quais vetores mais parecidos com este?" em milissegundos sobre milhões de itens. Players canônicos em 2026: Pinecone, Weaviate, Qdrant, Milvus, Chroma e pgvector (extensão Postgres). Postgres com pgvector ultrapassou Pinecone em downloads em 2025 segundo dados públicos da Supabase. Em pipelines RAG, vector database fica entre o embedder e o LLM.
Analogia: É o arquivo morto, mas em vez de procurar pela ficha você procura pelo cheiro do papel. Em milissegundos, ele acha as fichas com cheiro mais parecido.
zero-shot
Também chamado de: zero-shot prompting, sem exemplos
Pedir ao modelo para resolver a tarefa sem fornecer exemplos prévios na prompt.
Zero-shot é o regime em que o LLM recebe apenas a descrição da tarefa em linguagem natural, sem demonstrações. Contrasta com few-shot (1 a 5 exemplos) e many-shot. Modelos modernos (GPT-5, Claude Opus 4.7, Gemini 2.5) são surpreendentemente bons em zero-shot em tarefas comuns, mas few-shot ainda melhora performance em formatos de saída específicos, vocabulário de nicho e estilo editorial. A discussão técnica canônica está no paper Language Models are Few-Shot Learners (Brown et al., GPT-3, 2020).
Analogia: É pedir para um funcionário novo fazer a tarefa só com a descrição, sem mostrar como o último funcionário fez. Às vezes funciona, às vezes vale a pena mostrar antes.