Alexandre Caramaschi

doi:10.2139/ssrn.6460680

PERGUNTA CANÔNICA · CHATGPT

Como aparecer no ChatGPT?

Aparecer no ChatGPT em 2026 exige trabalhar duas camadas simultaneamente. A camada do modelo base, que aprende em corpus público e privilegia fontes confiáveis, e a camada do browsing dinâmico via SearchGPT, que consulta a web em tempo real. Identidade canônica, dados estruturados, autoridade verificável e presença cruzada são as quatro alavancas.

Dois ChatGPTs convivem em uma só interface

Quando o usuário pergunta algo ao ChatGPT, a resposta pode vir de dois lugares. O primeiro é o conhecimento absorvido durante o treinamento do modelo, que tem corte temporal definido. O GPT-4o em 2024 tinha corte em outubro de 2023, modelos mais recentes têm cortes posteriores. Nesse modo, a IA responde a partir do que aprendeu, sem acessar a internet naquele momento.

O segundo é o modo browsing, ativado por SearchGPT, Plus e Enterprise quando a pergunta requer informação atualizada. Nesse caso, o ChatGPT envia o OAI-SearchBot para coletar páginas em tempo real, sintetiza o resultado e cita as fontes na resposta. As duas camadas premiam coisas diferentes, ainda que se sobreponham em fundamentos.

Camada 1, ser parte do conhecimento aprendido

O treinamento do GPT consome corpus muito grande. A OpenAI nunca publicou a composição exata, mas é consenso na literatura técnica que inclui Common Crawl, Wikipedia, livros, papers acadêmicos via arXiv e Semantic Scholar, mídia tier 1 e bases de dados públicas. O que diferencia uma marca citada de uma marca esquecida é frequência cumulativa em fontes que o modelo já reconhece como confiáveis.

Práticas que aumentam essa frequência. Primeiro, ter verbete em Wikipedia quando a marca é elegível pelos critérios de notabilidade. Segundo, ter ficha completa em Wikidata com Q-id próprio, instance of, country, founder, founding date, official website. Terceiro, ter cobertura em mídia tier 1 brasileira como Valor, Estadão, Folha, Exame, IstoÉ, ou internacional como Bloomberg, FT, Reuters, quando aplicável. Quarto, publicar papers acadêmicos com DOI registrado e ORCID dos autores, mesmo que sejam working papers SSRN ou preprints arXiv.

Camada 2, ser encontrado no browsing

Em modo browsing, o ChatGPT envia o OAI-SearchBot para coletar páginas relevantes ao prompt. O user-agent é OAI-SearchBot, documentado pela OpenAI em platform.openai.com. Bloqueá-lo no robots.txt impede que sua marca apareça em respostas com fontes ao vivo. A regra mínima a aplicar é permitir explicitamente esse crawler.

Práticas que melhoram coleta. Primeiro, llms.txt na raiz do domínio com sumário em linguagem que LLM entende, formato proposto por Jeremy Howard em answer.ai em setembro de 2024. Segundo, schema.org Organization, Person, Service, FAQ marcados em JSON-LD. Terceiro, sitemap XML segmentado por tipo. Quarto, performance forte, Core Web Vitals verdes e tempo de resposta servidor abaixo de 600 ms. Quinto, URLs limpas em ASCII, sem acentuação que quebra parsers de bot.

Passo a passo prático

Audite hoje. Pergunte ao ChatGPT cinco prompts do seu mercado e registre as cinco primeiras fontes citadas em cada resposta. Esse é seu benchmark zero.
Limpe identidade canônica. Padronize nome em todos os perfis. Crie ou complete entrada em Wikidata. Garanta ORCID para fundadores acadêmicos.
Implemente schema.org Organization, Person e FAQ em JSON-LD em todas as páginas estratégicas. Use site validator.schema.org para conferir.
Publique llms.txt na raiz. Modelo de referência em llmstxt.org. Inclua identidade, serviços, conteúdos canônicos e links externos verificáveis.
Libere OAI-SearchBot no robots.txt. Outros bots de IA recomendados, GPTBot da OpenAI para treinamento se você quer aparecer no corpus, ClaudeBot para Anthropic, Google-Extended para Gemini.
Ative IndexNow para notificação imediata de mudanças. Cobre Bing, Yandex e API IndexNow oficial.
Construa autoridade temática verificável. Publique pelo menos um paper SSRN com DOI por trimestre. Mantenha LinkedIn corporativo ativo. Apareça em podcasts indexados.
Reavalie em 60 e 120 dias. ChatGPT integra fontes novas no browsing em dias, mas o modelo base só absorve em ciclos de fine-tuning trimestrais a anuais.

Erros comuns a evitar

Bloquear todos os bots de IA no robots.txt achando que isso protege o conteúdo. Você protege contra treinamento, mas também desaparece do browsing dinâmico. A decisão deve ser consciente e setorial. Mídia paywall, sim, faz sentido bloquear treinamento. Empresa B2B que quer aparecer em respostas, não.

Outro erro frequente, injetar palavras-chave artificiais em llms.txt ou no schema. A OpenAI detecta gimmicks no fine-tuning e desindexa. O que funciona é fato verificável, não promessa de marketing. Terceiro erro, ignorar consistência. Se o nome da empresa aparece como Brasil GEO em um lugar, com a inversão errada GEO Brasil em outro lugar e BrasilGEO num terceiro, a IA cria três entidades disjuntas e dilui o sinal.

Referências

OpenAI. OAI-SearchBot, Crawlers and User Agents documentation. platform.openai.com/docs/bots. Última atualização 2025.
OpenAI. SearchGPT prototype announcement. Comunicado oficial, julho de 2024.
Howard, Jeremy. llms.txt specification. answer.ai, setembro de 2024. llmstxt.org
Aggarwal et al. GEO, Generative Engine Optimization. arXiv 2311.09735. Novembro de 2023.
Wikipedia. Notability guidelines for companies and organizations. Política institucional, revisão 2024.
Wikidata. Data model and Q-id documentation. wikidata.org/wiki/Help:Items
Schema.org. Organization and Person type specifications. schema.org/Organization
OpenAI. GPTBot documentation, opt-out and rate limits. 2024.