Alexandre Caramaschi

doi:10.2139/ssrn.6460680

JSON-LD e Markdown: a linguagem nativa que ensina IAs a recomendar sua marca

Por Alexandre Caramaschi, CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), cofundador da AI Brasil · Março 2026

O equívoco fundamental: LLMs não "navegam" sites

Existe um mal-entendido persistente entre executivos e profissionais de marketing sobre como modelos de linguagem interagem com conteúdo corporativo. A metáfora mental dominante é que um LLM "visita" seu site da mesma forma que um humano: lê o título, escaneia os parágrafos, avalia o design, forma uma impressão. Essa metáfora é completamente errada — e construir estratégia sobre ela é construir sobre areia.

LLMs não navegam. Eles processam. A diferença é tão fundamental quanto a diferença entre um ser humano ler um romance e um compilador processar código-fonte. O humano extrai significado do contexto, do estilo, das nuances. O compilador extrai instruções da estrutura, da sintaxe, das declarações explícitas.

Quando um crawler de IA (como o GPTBot da OpenAI, o Anthropic-AI da Anthropic ou o Bingbot aprimorado da Microsoft) acessa seu site, ele não "vê" seu layout responsivo, suas animações em CSS ou seu carrossel de depoimentos. Ele vê uma massa de HTML que precisa ser parseada, desambiguada e classificada. E nesse processo de classificação, duas estruturas se destacam por sua eficiência computacional e clareza semântica: JSON-LD e Markdown.

Para um LLM, seu site funciona como um corpus de dados — comprimido, indexado e potencialmente utilizado para gerar respostas — e a experiência visual simplesmente não existe nessa equação. A qualidade desse corpus determina se sua marca será citada com precisão, citada com erros ou simplesmente ignorada.

JSON-LD: definindo "quem, o quê, quanto" para máquinas

JSON-LD (JavaScript Object Notation for Linked Data) é um formato de dados estruturados que utiliza o vocabulário Schema.org para descrever entidades de forma que máquinas possam processar sem ambiguidade. Ele não aparece na renderização visual da página — é inserido no <head> ou no <body> como um bloco <script type="application/ld+json"> invisível ao usuário humano, mas perfeitamente legível para crawlers e LLMs.

A importância do JSON-LD para visibilidade em IA transcende a otimização técnica. Ele resolve o problema mais caro da era generativa: a ambiguidade. Quando um LLM processa seu site e encontra "Somos líderes em soluções de tecnologia", a informação é vaga, não verificável e indistinguível de milhares de outros sites. Quando encontra um bloco JSON-LD que declara explicitamente:

Organization: nome, URL, fundação, setor, localização, número de funcionários. Product: nome, descrição, preço, disponibilidade, avaliação agregada. Person: nome, cargo, afiliações, qualificações, publicações.

O modelo tem dados concretos para trabalhar. Não precisa inferir. Não precisa adivinhar. Não precisa hallucinar.

Os três schemas críticos para citabilidade em LLMs

De mais de 800 tipos no vocabulário Schema.org, três são absolutamente essenciais para empresas que buscam citabilidade em motores de IA:

Schema	O que declara	Impacto em citabilidade	Dados críticos
`Organization`	Identidade corporativa	Define a entidade primária para o LLM associar informações	name, url, foundingDate, numberOfEmployees, sameAs (links para LinkedIn, Crunchbase), areaServed
`Product` / `Service`	Oferta comercial	Permite ao LLM responder queries de recomendação com dados factuais	name, description, offers (price, priceCurrency), aggregateRating, brand
`Person`	Autoridade individual	Conecta expertise humana à entidade corporativa, aumentando E-E-A-T algorítmico	name, jobTitle, worksFor, sameAs, alumniOf, knowsAbout

A combinação dos três cria o que chamamos de "grafo de entidade completo": a máquina sabe quem é a empresa, o que ela vende e quem são as pessoas por trás dela. Essa tríade é o mínimo necessário para que um LLM possa construir uma resposta factual sobre sua marca.

O atributo `sameAs`: o elo de validação cruzada

Um atributo frequentemente negligenciado no JSON-LD é o sameAs, que declara explicitamente que a entidade descrita é a mesma entidade presente em outras plataformas. Quando você inclui "sameAs": ["https://linkedin.com/company/suaempresa", "https://crunchbase.com/organization/suaempresa", "https://g2.com/products/seuproduto"], está dizendo ao LLM: "Essas fontes externas se referem à mesma entidade. Cruze as informações para validar."

Isso é extraordinariamente poderoso porque replica exatamente o processo que LLMs já fazem organicamente — validação cruzada entre fontes — mas de forma declarativa e explícita, reduzindo a probabilidade de erro ou confusão com entidades homônimas.

Markdown: a camada de texto limpo para crawlers de IA

Se JSON-LD é o cartão de identidade semântico da sua marca, Markdown é a carta de apresentação. Enquanto JSON-LD declara fatos estruturados, Markdown oferece contexto narrativo em um formato que crawlers de IA processam com eficiência radicalmente superior ao HTML convencional.

A razão é computacional. Um documento HTML típico contém entre 60% e 80% de markup não-informativo: tags de layout, classes CSS, scripts JavaScript, elementos de navegação, rodapés, banners. O crawler precisa filtrar todo esse ruído para extrair o conteúdo semântico. O esforço computacional é alto e o resultado é frequentemente imperfeito — o modelo pode confundir texto de navegação com conteúdo, ou perder contexto por causa de estruturas de layout aninhadas.

Markdown elimina esse problema. É texto puro com marcação mínima e semântica: títulos (#), listas (-), ênfase (**), links ([texto](url)). A relação sinal/ruído é próxima de 100%. Para um crawler de IA, processar Markdown é ordens de magnitude mais eficiente do que processar HTML.

HTML foi projetado para browsers renderizarem páginas para humanos. Markdown foi projetado para sistemas processarem texto com clareza. Na era dos LLMs, oferecer apenas HTML é como enviar um fax quando o receptor espera um arquivo digital.

O protocolo llms.txt

O arquivo llms.txt, posicionado na raiz do domínio, é uma convenção emergente que funciona como um robots.txt semântico para motores de IA. Enquanto o robots.txt diz ao crawler o que ele pode ou não acessar, o llms.txt diz ao LLM o que a empresa é, o que faz e quais são as informações autoritativas sobre ela — em Markdown puro.

A adoção do llms.txt ainda é incipiente, mas entre as empresas que implementaram, observamos aumento mensurável na precisão das respostas de LLMs sobre essas marcas. A razão é lógica: quando você oferece ao modelo um arquivo estruturado, em Markdown limpo, com as informações canônicas sobre sua empresa, você reduz a necessidade de inferência. E menos inferência significa menos hallucination.

A infraestrutura para Agentic Commerce (B2A)

JSON-LD e Markdown não são apenas ferramentas de visibilidade para o presente. São a infraestrutura fundamental para o paradigma Business-to-Agent (B2A) que está emergindo.

Quando agentes autônomos de IA começarem a executar tarefas de procurement — e isso já está acontecendo em fase piloto em grandes empresas —, eles precisarão de dados que possam processar programaticamente. Um agente não vai "ler" a página de pricing do seu site e interpretar o layout. Ele vai buscar dados estruturados em JSON-LD que declarem explicitamente: produto X, preço Y, moeda Z, disponibilidade W.

Empresas que já possuem essa infraestrutura estarão "plugáveis" no ecossistema de agentes. Empresas que não possuem serão invisíveis — não por falta de qualidade, mas por incompatibilidade de protocolo.

Capacidade do agente	Dado necessário	Formato requerido	Sem estrutura = resultado
Identificar fornecedor	Organization schema	JSON-LD	Entidade não reconhecida
Comparar produtos	Product schema com offers	JSON-LD	Excluído da comparação
Avaliar confiabilidade	Reviews, ratings, sameAs	JSON-LD + fontes externas	Classificado como baixa confiança
Ler contexto narrativo	Descrição da empresa e proposta de valor	Markdown (llms.txt)	Descrição genérica ou incorreta
Solicitar proposta	Contato, API, formulário estruturado	JSON-LD ContactPoint	Incapaz de iniciar contato

B2A já se manifesta como evolução incremental de ferramentas em operação — Copilot, ChatGPT Plugins, Perplexity Shopping — tornando o horizonte muito mais próximo do que a maioria dos executivos percebe. Cada uma dessas plataformas já opera com agentes em escala limitada. A infraestrutura que você constrói hoje determina se sua marca estará no ecossistema de agentes amanhã.

Canais de validação: onde LLMs verificam o que você declara

JSON-LD no seu site declara informações. Mas LLMs não confiam em autodeclaração. Eles cruzam informações com fontes externas — e a consistência (ou inconsistência) entre fontes é um sinal de confiança extremamente forte.

Os principais canais de validação que LLMs utilizam para empresas B2B no Brasil são:

Canal	Tipo de validação	Dados críticos	Impacto em citabilidade
LinkedIn Company Page	Identidade corporativa e autoridade de equipe	Descrição, especialidades, tamanho, publicações, crescimento	Alto — usado por Copilot como fonte primária
G2	Validação de produto via reviews de usuários	Ratings, reviews verificados, comparações, categorização	Alto para SaaS — fonte primária para queries de comparação
Clutch.co	Validação de serviços via reviews de clientes	Portfólio, reviews, certificações, tamanho de equipe	Alto para serviços B2B — usado por Perplexity e ChatGPT
Crunchbase	Perfil empresarial e histórico financeiro	Fundação, funding, aquisições, executivos, tecnologias	Médio-alto — fonte de validação cruzada para LLMs
Google Business Profile	Presença local e avaliações	Endereço, horário, reviews, fotos, categorias	Alto para Gemini — integração direta com ecossistema Google
Wikipedia / Wikidata	Notabilidade e enciclopédia de entidades	Artigo enciclopédico com fontes verificáveis	Muito alto — mas requer notabilidade comprovável

A chave não é estar presente em todos esses canais (embora isso seja o ideal). A chave é que os dados em cada canal sejam perfeitamente consistentes entre si e com o JSON-LD do seu site. Nome da empresa grafado da mesma forma. Descrição alinhada. Dados de contato idênticos. Executivos listados com os mesmos cargos. Produtos com os mesmos nomes.

Qualquer inconsistência é um sinal negativo. Se o LinkedIn diz que a empresa tem 50 funcionários e o Crunchbase diz 200, o LLM não sabe em qual confiar — e a tendência é confiar menos em ambos.

A dimensão "Técnica" do Score 6D: o que medimos

No framework Score 6D da Brasil GEO, a dimensão "Técnica" avalia especificamente a qualidade da infraestrutura de dados estruturados da empresa. É, na nossa experiência, a dimensão com maior variância entre empresas: algumas estão com score próximo de zero (nenhum JSON-LD implementado), enquanto outras — geralmente com equipes técnicas fortes — já possuem implementação avançada.

A dimensão Técnica avalia cinco subcomponentes:

Subcomponente	O que avalia	Peso no score
Schema coverage	Percentual de entidades (organização, produtos, pessoas) com JSON-LD implementado	30%
Schema depth	Completude dos atributos em cada schema (vs. implementação mínima)	25%
Cross-source consistency	Alinhamento entre JSON-LD do site e dados em canais de validação	20%
Machine readability	Disponibilidade de conteúdo em Markdown (llms.txt, docs) e acessibilidade a crawlers de IA	15%
Freshness signals	Presença de dateModified, atualização regular de dados estruturados	10%

Empresas que atingem score alto na dimensão Técnica mas baixo nas demais dimensões (Presença, Reputação, Conteúdo, Distribuição, Governança) ainda assim apresentam melhoria mensurável em citabilidade. Isso porque a dimensão Técnica resolve o problema de legibilidade — o pré-requisito para que qualquer outra dimensão tenha efeito.

A analogia do idioma

A melhor analogia para entender o papel da dimensão Técnica é a do idioma. Imagine que sua empresa tem a melhor história, os melhores produtos e a melhor reputação — mas tudo isso está escrito em um idioma que o interlocutor não fala. O conteúdo é excelente, mas a comunicação é zero. JSON-LD e Markdown são o idioma que LLMs falam nativamente. Sem eles, todo o investimento nas outras dimensões opera com atrito desnecessário.

Estratégia de glossário semântico: tornando-se a fonte primária de definições

Uma das estratégias mais poderosas — e mais subutilizadas — para aumentar citabilidade em LLMs é o que chamamos de "glossário semântico": criar definições autoritativas para os termos-chave do seu nicho de mercado.

LLMs, por natureza, precisam de definições para construir respostas. Quando um usuário pergunta "o que é GEO?", o modelo busca em seus dados de treinamento e em fontes web as melhores definições disponíveis. Se sua empresa publicou uma definição clara, estruturada, com dados de suporte e em formato legível por máquina, as chances de ser citada como fonte dessa definição aumentam significativamente.

O glossário semântico funciona em três camadas:

Camada 1: Definição pura. Uma página (ou seção de página) dedicada exclusivamente a definir o termo, com JSON-LD do tipo DefinedTerm ou Article com about declarado. O conteúdo deve ser factual, imparcial e denso em informação — não promocional.

Camada 2: Contextualização com dados. A definição é enriquecida com dados proprietários, pesquisas, benchmarks ou análises que não estão disponíveis em outras fontes. Isso cria o que chamamos de "vantagem informacional" — o LLM não apenas encontra sua definição, mas encontra dados que só existem na sua fonte.

Camada 3: Linkagem semântica. Cada termo do glossário referência outros termos do glossário, criando uma rede semântica interna que o LLM pode navegar para construir respostas mais completas. Isso aumenta o "tempo de permanência algorítmica" — o equivalente para máquinas do dwell time humano.

A empresa que define os termos do seu setor para LLMs não apenas ganha citabilidade — ela molda a forma como a IA entende e explica o setor inteiro. É a diferença entre participar de uma conversa e definir o vocabulário dessa conversa.

Checklist prático: 8 passos para implementar JSON-LD e Markdown para LLMs

Para executivos e equipes técnicas que desejam começar a implementar imediatamente, desenvolvemos um checklist baseado nos padrões que observamos nas empresas com maior citabilidade em motores de IA:

Passo 1: Auditar o estado atual. Utilize o Google Rich Results Test e o Schema.org Validator para verificar se há algum JSON-LD implementado atualmente. Faça o mesmo teste para o Bing usando o Bing Markup Validator. Documente todas as lacunas.

Passo 2: Implementar Organization schema completo. Não o mínimo — o completo. Inclua: name, url, logo, foundingDate, numberOfEmployees, address, sameAs (com URLs de LinkedIn, Crunchbase, G2, Wikipedia se aplicável), areaServed, description, contactPoint. Este é o schema mais importante porque define a entidade raiz.

Passo 3: Implementar Product/Service schema para cada oferta. Cada produto ou serviço deve ter seu próprio bloco JSON-LD com: name, description, offers (incluindo price ou priceRange e priceCurrency), aggregateRating (se disponível), brand, category. Se seus preços não são públicos, use "priceRange": "$$" ou similar.

Passo 4: Implementar Person schema para executivos-chave. CEO, CTO, heads de produto — qualquer pessoa que represente autoridade técnica ou estratégica. Inclua: name, jobTitle, worksFor, sameAs (LinkedIn pessoal), alumniOf, knowsAbout. Isso conecta expertise individual à entidade corporativa.

Passo 5: Criar e publicar o arquivo llms.txt. Posicione na raiz do domínio (seusite.com/llms.txt). Escreva em Markdown puro. Inclua: nome da empresa, descrição em uma frase, descrição expandida, produtos/serviços, diferenciais, contato, links para fontes autoritativas. Mantenha atualizado.

Passo 6: Alinhar dados em todos os canais de validação. Compare manualmente (ou via ferramenta automatizada) os dados do JSON-LD com os dados em LinkedIn, Crunchbase, G2, Clutch.co e Google Business Profile. Corrija qualquer inconsistência. Padronize a grafia do nome da empresa, descrições e dados numéricos.

Passo 7: Garantir acessibilidade a crawlers de IA. Verifique que o robots.txt não bloqueia GPTBot, Anthropic-AI, Bingbot ou outros crawlers de IA. Implemente IndexNow para notificação instantânea de atualizações. Considere oferecer uma versão Markdown do conteúdo principal (além do HTML) via endpoint dedicado ou sitemap alternativo.

Passo 8: Estabelecer cadência de atualização. JSON-LD desatualizado é pior do que não ter JSON-LD — porque informa dados errados com aparência de autoridade. Estabeleça um processo trimestral (no mínimo) de revisão e atualização de todos os schemas e canais de validação. Use dateModified em cada schema para sinalizar recência.

O custo da inação versus o custo da implementação

A implementação completa de JSON-LD e Markdown para uma empresa de médio porte — incluindo todos os schemas, llms.txt, alinhamento de canais e processo de governança — é um projeto de 4 a 8 semanas para uma equipe técnica competente. O investimento é modesto em comparação com qualquer campanha de mídia paga.

O custo da inação, por outro lado, é cumulativo e acelerante. Cada mês sem infraestrutura de dados estruturados é um mês em que concorrentes com essa infraestrutura acumulam citações, reforçam sua presença nos dados de treinamento e consolidam sua posição como entidades confiáveis para LLMs. Dados de treinamento são cumulativos: o que está nos dados hoje influência o modelo de amanhã. Começar tarde não significa começar do mesmo ponto — significa começar de um déficit crescente.

Investimento	Custo típico	Retorno esperado	Horizonte
Implementação JSON-LD completa	40-80 horas técnicas	Aumento de 25-40% na precisão de citações em LLMs	3-6 meses
Criação e manutenção de llms.txt	4-8 horas iniciais + 2h/mês	Redução mensurável em hallucinations sobre a marca	1-3 meses
Alinhamento de canais de validação	16-24 horas	Aumento de confiança algorítmica (cross-source consistency)	2-4 meses
Glossário semântico (10 termos)	40-60 horas de conteúdo	Posicionamento como fonte primária de definições no nicho	6-12 meses

A tese técnica da Brasil GEO

JSON-LD e Markdown não são ferramentas de SEO incrementais. São a linguagem nativa de uma nova era de descoberta e comércio. Assim como HTML e CSS foram a linguagem da era dos browsers, e APIs REST foram a linguagem da era das plataformas, JSON-LD e Markdown são a linguagem da era dos agentes.

Empresas que dominam essa linguagem não estão apenas otimizando para visibilidade. Estão construindo a infraestrutura que as tornará "plugáveis" no ecossistema de agentes autônomos que vai redefinir procurement, descoberta e avaliação de fornecedores nos próximos anos.

A pergunta que o executivo brasileiro deveria estar fazendo em 2026 é direta: quanto market share estamos perdendo a cada dia sem dados estruturados implementados?

Sobre o autor

Alexandre Caramaschi é CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq) e cofundador da AI Brasil. Executivo de tecnologia e marketing com mais de 20 anos de experiência. Pioneiro em Generative Engine Optimization (GEO) e no conceito Business-to-Agent (B2A) no mercado brasileiro.

Solicitar diagnóstico GEO gratuito