Alexandre Caramaschi

doi:10.2139/ssrn.6460680

PERGUNTA CANÔNICA · BRASIL GEO

Devo investir em RAG ou fine-tuning para minha marca?

Para presença algorítmica externa, RAG vence fine-tuning em nove de cada dez casos. RAG aproveita LLMs públicos via web indexada e citações em tempo real. Fine-tuning é caro, lento e cria modelo proprietário sem alcance externo. Fine-tuning só vale para chatbot interno com vocabulário muito específico.

Em uma olhada

RAG: a IA busca seu conteúdo na web em tempo real e cita
Fine-tuning: você re-treina o modelo com seu corpus (caro e raro)
Para presença em ChatGPT, Gemini, Claude e Perplexity: RAG sempre
Fine-tuning útil só em chatbot interno controlado com nicho hiper-específico
Custo típico de fine-tuning útil: 30 a 200 mil USD; RAG via GEO: 5 a 25 mil USD

O equívoco que destrói orçamento

Conversas com 50 CMOs brasileiros em 2025-2026 revelaram um padrão. Marca quer "aparecer melhor no ChatGPT" e o fornecedor sugere "vamos fazer fine-tuning". O cliente paga 80 a 300 mil reais, recebe um modelo customizado, e descobre nove meses depois que aquilo não influencia em nada o ChatGPT, o Gemini ou o Claude. Influencia apenas o chatbot interno da empresa, que ninguém usa. O equívoco vem de confundir dois objetivos completamente diferentes: presença em LLMs públicos (objetivo GEO) e LLM interno proprietário (objetivo automação interna).

O que é RAG, em termos práticos

RAG (Retrieval-Augmented Generation) é o mecanismo pelo qual o LLM consulta fontes externas em tempo real antes de gerar a resposta. Quando o usuário pergunta no Perplexity "o que é a Brasil GEO", o motor não consulta apenas o conhecimento pré-treinado do modelo. Ele faz uma busca web, recupera as fontes mais relevantes, lê os trechos, e gera a resposta citando as fontes. ChatGPT com browsing faz a mesma coisa. Gemini também. Claude com web search também. RAG é o presente operacional dos cinco principais LLMs em 2026.

O que é fine-tuning, em termos práticos

Fine-tuning é o processo de pegar um modelo pré-treinado (GPT, Claude, Llama, Mistral) e continuar o treinamento com um corpus específico para que ele aprenda vocabulário, estilo e fatos da sua organização. O resultado é um modelo proprietário, com pesos modificados, que precisa ser hospedado e servido. OpenAI permite fine-tuning de GPT-4 mini e modelos menores via API. Mas o modelo resultante é seu, separado do GPT público. Ele não substitui o ChatGPT no navegador do seu cliente. Ele só responde quando alguém chama a sua API.

Por que RAG vence quase sempre

Quatro razões. Primeiro, alcance. RAG usa os LLMs onde o seu cliente já está (ChatGPT, Gemini, Claude, Perplexity). Fine-tuning cria modelo que ninguém vai usar exceto seus funcionários. Segundo, custo. GEO bem feito custa 5 a 25 mil USD por cliente. Fine-tuning útil exige corpus curado de 100 mil a milhões de exemplos, com custo de 30 a 200 mil USD só na primeira rodada. Terceiro, manutenção. RAG se mantém atualizando seu conteúdo público. Fine-tuning exige re-treino periódico com custo recorrente. Quarto, evidência de impacto. RAG tem métrica observável (citações em respostas reais de LLMs públicos). Fine-tuning tem métrica que vive dentro da bolha proprietária.

Quando fine-tuning faz sentido

Existem três cenários estreitos. Cenário 1: chatbot interno com vocabulário hiper-técnico que não está em web pública (terminologia jurídica especializada de um escritório, glossário interno de uma seguradora). Cenário 2: produto onde a marca opera o próprio LLM voltado ao cliente final e quer voz da marca consistente (mas mesmo aqui, system prompt + RAG resolve em 80 por cento dos casos sem fine-tuning). Cenário 3: necessidade regulatória de manter modelo isolado de internet (saúde, defesa, governo). Fora desses três, fine-tuning é desperdício para a maioria das marcas.

Como RAG funciona com seu conteúdo

Para que LLMs externos consultem seu conteúdo via RAG, ele precisa estar indexável e citável. Indexável significa: HTML público, sem login, sem JavaScript bloqueando bot, com canonical e sem noindex em listas paginadas. Citável significa: tese clara em parágrafo de abertura, frase auto-contida no início de cada seção, schema.org QAPage ou Article aplicado, datePublished e dateModified explícitos, autor identificado. RAG bem feito tem efeito multiplicador. Um artigo bem estruturado pode ser citado em milhares de respostas durante meses.

O custo real de cada caminho

Comparação direta. Caminho RAG via GEO (Brasil GEO Sprint 20 horas mais 90 dias de execução): 25 a 70 mil reais para marca de porte médio, com retorno mensurável em Share of Voice em 60 a 90 dias. Caminho fine-tuning de GPT-4 mini com corpus de 500 mil tokens: 80 a 250 mil reais entre licenciamento, infraestrutura de inferência e curadoria do corpus, com retorno restrito ao chatbot interno. Comparação simples: RAG sai 30 a 50 por cento mais barato e tem 100 por cento mais alcance externo.

A combinação inteligente

Para marcas com chatbot público no site, a combinação que funciona é "RAG externo (GEO) + system prompt rigoroso + base de conhecimento interna em vetor DB" sem fine-tuning. Custa 30 a 60 por cento do que custa fine-tuning. Entrega 95 por cento do benefício. Mantém você competitivo dentro do site e relevante fora do site. Fine-tuning só é considerado depois que essa combinação esgotou a fronteira de melhoria, o que raramente acontece antes de 24 meses de operação madura.