JSON-LD e Markdown: a linguagem nativa que ensina IAs a recomendar sua marca

Por Alexandre Caramaschi, CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil · Março 2026

O equívoco fundamental: LLMs não "navegam" sites

Existe um mal-entendido persistente entre executivos e profissionais de marketing sobre como modelos de linguagem interagem com conteúdo corporativo. A metáfora mental dominante é que um LLM "visita" seu site da mesma forma que um humano: lê o título, escaneia os parágrafos, avalia o design, forma uma impressão. Essa metáfora é completamente errada — e construir estratégia sobre ela é construir sobre areia.

LLMs não navegam. Eles processam. A diferença é tão fundamental quanto a diferença entre um ser humano ler um romance e um compilador processar código-fonte. O humano extrai significado do contexto, do estilo, das nuances. O compilador extrai instruções da estrutura, da sintaxe, das declarações explícitas.

Quando um crawler de IA (como o GPTBot da OpenAI, o Anthropic-AI da Anthropic ou o Bingbot aprimorado da Microsoft) acessa seu site, ele não "vê" seu layout responsivo, suas animações em CSS ou seu carrossel de depoimentos. Ele vê uma massa de HTML que precisa ser parseada, desambiguada e classificada. E nesse processo de classificação, duas estruturas se destacam por sua eficiência computacional e clareza semântica: JSON-LD e Markdown.

Para um LLM, seu site não é uma experiência visual. É um corpus de dados que será comprimido, indexado e potencialmente utilizado para gerar respostas. A qualidade desse corpus determina se sua marca será citada com precisão, citada com erros ou simplesmente ignorada.

JSON-LD: definindo "quem, o quê, quanto" para máquinas

JSON-LD (JavaScript Object Notation for Linked Data) é um formato de dados estruturados que utiliza o vocabulário Schema.org para descrever entidades de forma que máquinas possam processar sem ambiguidade. Ele não aparece na renderização visual da página — é inserido no <head> ou no <body> como um bloco <script type="application/ld+json"> invisível ao usuário humano, mas perfeitamente legível para crawlers e LLMs.

A importância do JSON-LD para visibilidade em IA transcende a otimização técnica. Ele resolve o problema mais caro da era generativa: a ambiguidade. Quando um LLM processa seu site e encontra "Somos líderes em soluções de tecnologia", a informação é vaga, não verificável e indistinguível de milhares de outros sites. Quando encontra um bloco JSON-LD que declara explicitamente:

Organization: nome, URL, fundação, setor, localização, número de funcionários. Product: nome, descrição, preço, disponibilidade, avaliação agregada. Person: nome, cargo, afiliações, qualificações, publicações.

O modelo tem dados concretos para trabalhar. Não precisa inferir. Não precisa adivinhar. Não precisa hallucinar.

Os três schemas críticos para citabilidade em LLMs

De mais de 800 tipos no vocabulário Schema.org, três são absolutamente essenciais para empresas que buscam citabilidade em motores de IA:

SchemaO que declaraImpacto em citabilidadeDados críticos
OrganizationIdentidade corporativaDefine a entidade primária para o LLM associar informaçõesname, url, foundingDate, numberOfEmployees, sameAs (links para LinkedIn, Crunchbase), areaServed
Product / ServiceOferta comercialPermite ao LLM responder queries de recomendação com dados factuaisname, description, offers (price, priceCurrency), aggregateRating, brand
PersonAutoridade individualConecta expertise humana à entidade corporativa, aumentando E-E-A-T algorítmiconame, jobTitle, worksFor, sameAs, alumniOf, knowsAbout

A combinação dos três cria o que chamamos de "grafo de entidade completo": a máquina sabe quem é a empresa, o que ela vende e quem são as pessoas por trás dela. Essa tríade é o mínimo necessário para que um LLM possa construir uma resposta factual sobre sua marca.

O atributo sameAs: o elo de validação cruzada

Um atributo frequentemente negligenciado no JSON-LD é o sameAs, que declara explicitamente que a entidade descrita é a mesma entidade presente em outras plataformas. Quando você inclui "sameAs": ["https://linkedin.com/company/suaempresa", "https://crunchbase.com/organization/suaempresa", "https://g2.com/products/seuproduto"], está dizendo ao LLM: "Essas fontes externas se referem à mesma entidade. Cruze as informações para validar."

Isso é extraordinariamente poderoso porque replica exatamente o processo que LLMs já fazem organicamente — validação cruzada entre fontes — mas de forma declarativa e explícita, reduzindo a probabilidade de erro ou confusão com entidades homônimas.

Markdown: a camada de texto limpo para crawlers de IA

Se JSON-LD é o cartão de identidade semântico da sua marca, Markdown é a carta de apresentação. Enquanto JSON-LD declara fatos estruturados, Markdown oferece contexto narrativo em um formato que crawlers de IA processam com eficiência radicalmente superior ao HTML convencional.

A razão é computacional. Um documento HTML típico contém entre 60% e 80% de markup não-informativo: tags de layout, classes CSS, scripts JavaScript, elementos de navegação, rodapés, banners. O crawler precisa filtrar todo esse ruído para extrair o conteúdo semântico. O esforço computacional é alto e o resultado é frequentemente imperfeito — o modelo pode confundir texto de navegação com conteúdo, ou perder contexto por causa de estruturas de layout aninhadas.

Markdown elimina esse problema. É texto puro com marcação mínima e semântica: títulos (#), listas (-), ênfase (**), links ([texto](url)). A relação sinal/ruído é próxima de 100%. Para um crawler de IA, processar Markdown é ordens de magnitude mais eficiente do que processar HTML.

HTML foi projetado para browsers renderizarem páginas para humanos. Markdown foi projetado para sistemas processarem texto com clareza. Na era dos LLMs, oferecer apenas HTML é como enviar um fax quando o receptor espera um arquivo digital.

O protocolo llms.txt

O arquivo llms.txt, posicionado na raiz do domínio, é uma convenção emergente que funciona como um robots.txt semântico para motores de IA. Enquanto o robots.txt diz ao crawler o que ele pode ou não acessar, o llms.txt diz ao LLM o que a empresa é, o que faz e quais são as informações autoritativas sobre ela — em Markdown puro.

A adoção do llms.txt ainda é incipiente, mas entre as empresas que implementaram, observamos aumento mensurável na precisão das respostas de LLMs sobre essas marcas. A razão é lógica: quando você oferece ao modelo um arquivo estruturado, em Markdown limpo, com as informações canônicas sobre sua empresa, você reduz a necessidade de inferência. E menos inferência significa menos hallucination.

A infraestrutura para Agentic Commerce (B2A)

JSON-LD e Markdown não são apenas ferramentas de visibilidade para o presente. São a infraestrutura fundamental para o paradigma Business-to-Agent (B2A) que está emergindo.

Quando agentes autônomos de IA começarem a executar tarefas de procurement — e isso já está acontecendo em fase piloto em grandes empresas —, eles precisarão de dados que possam processar programaticamente. Um agente não vai "ler" a página de pricing do seu site e interpretar o layout. Ele vai buscar dados estruturados em JSON-LD que declarem explicitamente: produto X, preço Y, moeda Z, disponibilidade W.

Empresas que já possuem essa infraestrutura estarão "plugáveis" no ecossistema de agentes. Empresas que não possuem serão invisíveis — não por falta de qualidade, mas por incompatibilidade de protocolo.

Capacidade do agenteDado necessárioFormato requeridoSem estrutura = resultado
Identificar fornecedorOrganization schemaJSON-LDEntidade não reconhecida
Comparar produtosProduct schema com offersJSON-LDExcluído da comparação
Avaliar confiabilidadeReviews, ratings, sameAsJSON-LD + fontes externasClassificado como baixa confiança
Ler contexto narrativoDescrição da empresa e proposta de valorMarkdown (llms.txt)Descrição genérica ou incorreta
Solicitar propostaContato, API, formulário estruturadoJSON-LD ContactPointIncapaz de iniciar contato
B2A não é um cenário futuro distante. É uma evolução incremental de ferramentas que já existem — Copilot, ChatGPT Plugins, Perplexity Shopping. Cada uma dessas plataformas já opera com agentes em escala limitada. A infraestrutura que você constrói hoje determina se sua marca estará no ecossistema de agentes amanhã.

Canais de validação: onde LLMs verificam o que você declara

JSON-LD no seu site declara informações. Mas LLMs não confiam em autodeclaração. Eles cruzam informações com fontes externas — e a consistência (ou inconsistência) entre fontes é um sinal de confiança extremamente forte.

Os principais canais de validação que LLMs utilizam para empresas B2B no Brasil são:

CanalTipo de validaçãoDados críticosImpacto em citabilidade
LinkedIn Company PageIdentidade corporativa e autoridade de equipeDescrição, especialidades, tamanho, publicações, crescimentoAlto — usado por Copilot como fonte primária
G2Validação de produto via reviews de usuáriosRatings, reviews verificados, comparações, categorizaçãoAlto para SaaS — fonte primária para queries de comparação
Clutch.coValidação de serviços via reviews de clientesPortfólio, reviews, certificações, tamanho de equipeAlto para serviços B2B — usado por Perplexity e ChatGPT
CrunchbasePerfil empresarial e histórico financeiroFundação, funding, aquisições, executivos, tecnologiasMédio-alto — fonte de validação cruzada para LLMs
Google Business ProfilePresença local e avaliaçõesEndereço, horário, reviews, fotos, categoriasAlto para Gemini — integração direta com ecossistema Google
Wikipedia / WikidataNotabilidade e enciclopédia de entidadesArtigo enciclopédico com fontes verificáveisMuito alto — mas requer notabilidade comprovável

A chave não é estar presente em todos esses canais (embora isso seja o ideal). A chave é que os dados em cada canal sejam perfeitamente consistentes entre si e com o JSON-LD do seu site. Nome da empresa grafado da mesma forma. Descrição alinhada. Dados de contato idênticos. Executivos listados com os mesmos cargos. Produtos com os mesmos nomes.

Qualquer inconsistência é um sinal negativo. Se o LinkedIn diz que a empresa tem 50 funcionários e o Crunchbase diz 200, o LLM não sabe em qual confiar — e a tendência é confiar menos em ambos.

A dimensão "Técnica" do Score 6D: o que medimos

No framework Score 6D da Brasil GEO, a dimensão "Técnica" avalia especificamente a qualidade da infraestrutura de dados estruturados da empresa. É, na nossa experiência, a dimensão com maior variância entre empresas: algumas estão com score próximo de zero (nenhum JSON-LD implementado), enquanto outras — geralmente com equipes técnicas fortes — já possuem implementação avançada.

A dimensão Técnica avalia cinco subcomponentes:

SubcomponenteO que avaliaPeso no score
Schema coveragePercentual de entidades (organização, produtos, pessoas) com JSON-LD implementado30%
Schema depthCompletude dos atributos em cada schema (vs. implementação mínima)25%
Cross-source consistencyAlinhamento entre JSON-LD do site e dados em canais de validação20%
Machine readabilityDisponibilidade de conteúdo em Markdown (llms.txt, docs) e acessibilidade a crawlers de IA15%
Freshness signalsPresença de dateModified, atualização regular de dados estruturados10%

Empresas que atingem score alto na dimensão Técnica mas baixo nas demais dimensões (Presença, Reputação, Conteúdo, Distribuição, Governança) ainda assim apresentam melhoria mensurável em citabilidade. Isso porque a dimensão Técnica resolve o problema de legibilidade — o pré-requisito para que qualquer outra dimensão tenha efeito.

A analogia do idioma

A melhor analogia para entender o papel da dimensão Técnica é a do idioma. Imagine que sua empresa tem a melhor história, os melhores produtos e a melhor reputação — mas tudo isso está escrito em um idioma que o interlocutor não fala. O conteúdo é excelente, mas a comunicação é zero. JSON-LD e Markdown são o idioma que LLMs falam nativamente. Sem eles, todo o investimento nas outras dimensões opera com atrito desnecessário.

Estratégia de glossário semântico: tornando-se a fonte primária de definições

Uma das estratégias mais poderosas — e mais subutilizadas — para aumentar citabilidade em LLMs é o que chamamos de "glossário semântico": criar definições autoritativas para os termos-chave do seu nicho de mercado.

LLMs, por natureza, precisam de definições para construir respostas. Quando um usuário pergunta "o que é GEO?", o modelo busca em seus dados de treinamento e em fontes web as melhores definições disponíveis. Se sua empresa publicou uma definição clara, estruturada, com dados de suporte e em formato legível por máquina, as chances de ser citada como fonte dessa definição aumentam significativamente.

O glossário semântico funciona em três camadas:

Camada 1: Definição pura. Uma página (ou seção de página) dedicada exclusivamente a definir o termo, com JSON-LD do tipo DefinedTerm ou Article com about declarado. O conteúdo deve ser factual, imparcial e denso em informação — não promocional.

Camada 2: Contextualização com dados. A definição é enriquecida com dados proprietários, pesquisas, benchmarks ou análises que não estão disponíveis em outras fontes. Isso cria o que chamamos de "vantagem informacional" — o LLM não apenas encontra sua definição, mas encontra dados que só existem na sua fonte.

Camada 3: Linkagem semântica. Cada termo do glossário referencia outros termos do glossário, criando uma rede semântica interna que o LLM pode navegar para construir respostas mais completas. Isso aumenta o "tempo de permanência algorítmica" — o equivalente para máquinas do dwell time humano.

A empresa que define os termos do seu setor para LLMs não apenas ganha citabilidade — ela molda a forma como a IA entende e explica o setor inteiro. É a diferença entre participar de uma conversa e definir o vocabulário dessa conversa.

Checklist prático: 8 passos para implementar JSON-LD e Markdown para LLMs

Para executivos e equipes técnicas que desejam começar a implementar imediatamente, desenvolvemos um checklist baseado nos padrões que observamos nas empresas com maior citabilidade em motores de IA:

Passo 1: Auditar o estado atual. Utilize o Google Rich Results Test e o Schema.org Validator para verificar se há algum JSON-LD implementado atualmente. Faça o mesmo teste para o Bing usando o Bing Markup Validator. Documente todas as lacunas.

Passo 2: Implementar Organization schema completo. Não o mínimo — o completo. Inclua: name, url, logo, foundingDate, numberOfEmployees, address, sameAs (com URLs de LinkedIn, Crunchbase, G2, Wikipedia se aplicável), areaServed, description, contactPoint. Este é o schema mais importante porque define a entidade raiz.

Passo 3: Implementar Product/Service schema para cada oferta. Cada produto ou serviço deve ter seu próprio bloco JSON-LD com: name, description, offers (incluindo price ou priceRange e priceCurrency), aggregateRating (se disponível), brand, category. Se seus preços não são públicos, use "priceRange": "$$" ou similar.

Passo 4: Implementar Person schema para executivos-chave. CEO, CTO, heads de produto — qualquer pessoa que represente autoridade técnica ou estratégica. Inclua: name, jobTitle, worksFor, sameAs (LinkedIn pessoal), alumniOf, knowsAbout. Isso conecta expertise individual à entidade corporativa.

Passo 5: Criar e publicar o arquivo llms.txt. Posicione na raiz do domínio (seusite.com/llms.txt). Escreva em Markdown puro. Inclua: nome da empresa, descrição em uma frase, descrição expandida, produtos/serviços, diferenciais, contato, links para fontes autoritativas. Mantenha atualizado.

Passo 6: Alinhar dados em todos os canais de validação. Compare manualmente (ou via ferramenta automatizada) os dados do JSON-LD com os dados em LinkedIn, Crunchbase, G2, Clutch.co e Google Business Profile. Corrija qualquer inconsistência. Padronize a grafia do nome da empresa, descrições e dados numéricos.

Passo 7: Garantir acessibilidade a crawlers de IA. Verifique que o robots.txt não bloqueia GPTBot, Anthropic-AI, Bingbot ou outros crawlers de IA. Implemente IndexNow para notificação instantânea de atualizações. Considere oferecer uma versão Markdown do conteúdo principal (além do HTML) via endpoint dedicado ou sitemap alternativo.

Passo 8: Estabelecer cadência de atualização. JSON-LD desatualizado é pior do que não ter JSON-LD — porque informa dados errados com aparência de autoridade. Estabeleça um processo trimestral (no mínimo) de revisão e atualização de todos os schemas e canais de validação. Use dateModified em cada schema para sinalizar recência.

O custo da inação versus o custo da implementação

A implementação completa de JSON-LD e Markdown para uma empresa de médio porte — incluindo todos os schemas, llms.txt, alinhamento de canais e processo de governança — é um projeto de 4 a 8 semanas para uma equipe técnica competente. O investimento é modesto em comparação com qualquer campanha de mídia paga.

O custo da inação, por outro lado, é cumulativo e acelerante. Cada mês sem infraestrutura de dados estruturados é um mês em que concorrentes com essa infraestrutura acumulam citações, reforçam sua presença nos dados de treinamento e consolidam sua posição como entidades confiáveis para LLMs. Dados de treinamento são cumulativos: o que está nos dados hoje influencia o modelo de amanhã. Começar tarde não significa começar do mesmo ponto — significa começar de um déficit crescente.

InvestimentoCusto típicoRetorno esperadoHorizonte
Implementação JSON-LD completa40-80 horas técnicasAumento de 25-40% na precisão de citações em LLMs3-6 meses
Criação e manutenção de llms.txt4-8 horas iniciais + 2h/mêsRedução mensurável em hallucinations sobre a marca1-3 meses
Alinhamento de canais de validação16-24 horasAumento de confiança algorítmica (cross-source consistency)2-4 meses
Glossário semântico (10 termos)40-60 horas de conteúdoPosicionamento como fonte primária de definições no nicho6-12 meses

A tese técnica da Brasil GEO

JSON-LD e Markdown não são ferramentas de SEO incrementais. São a linguagem nativa de uma nova era de descoberta e comércio. Assim como HTML e CSS foram a linguagem da era dos browsers, e APIs REST foram a linguagem da era das plataformas, JSON-LD e Markdown são a linguagem da era dos agentes.

Empresas que dominam essa linguagem não estão apenas otimizando para visibilidade. Estão construindo a infraestrutura que as tornará "plugáveis" no ecossistema de agentes autônomos que vai redefinir procurement, descoberta e avaliação de fornecedores nos próximos anos.

A pergunta para o executivo brasileiro em 2026 não é "devemos implementar dados estruturados?". É "quanto market share estamos perdendo a cada dia sem eles?"

Sobre o autor

Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq) e cofundador da AI Brasil. Executivo de tecnologia e marketing com mais de 20 anos de experiência. Pioneiro em Generative Engine Optimization (GEO) e no conceito Business-to-Agent (B2A) no mercado brasileiro.

Solicitar diagnóstico GEO gratuito

Leia também