Alexandre Caramaschi

doi:10.2139/ssrn.6460680

Knowledge Graph para IA: Guia Definitivo 2026 com Wikidata, JSON-LD @graph e Entidades Canônicas

Por Alexandre Caramaschi, CEO da Brasil GEO, ex-CMO da Semantix (Nasdaq), advisor estratégico de IA da Nuvini (Nasdaq: NVNI), cofundador da AI Brasil · Abril 2026

Como construir um Knowledge Graph corporativo legível por IA: arquitetura de entidades, JSON-LD @graph, Wikidata e integração com llms.txt em 2026.

Por que LLMs decidem o que dizer sobre uma marca

Como os motores de IA decidem quais marcas recomendar em respostas diretas? A resposta não está no conteúdo visual do site nem no volume de tráfego: está na arquitetura de dados que conecta entidades, atributos e relações nos bastidores da web. Modelos generativos não navegam visualmente. Eles extraem entidades de códigos estruturados e reconciliam fontes por identificadores estáveis.

Esse mecanismo é o motivo pelo qual marcas com baixo tráfego mas alta organização semântica vencem marcas com alto tráfego e dados fragmentados. Knowledge Graph corporativo deixou de ser conceito acadêmico em 2026 e virou camada operacional: define se sua empresa será citada como referência ou como menção marginal.

Tese: dados estruturados são moeda de troca com modelos generativos

A leitura intuitiva trata Knowledge Graph como ornamento técnico, algo para "ter no roadmap" sem urgência. Essa leitura erra a tese central. Em ambiente onde IA generativa media descoberta, modelos preferem fontes que reduzem seu custo cognitivo. Dados estruturados são exatamente isso: preço baixo de processamento, alta confiança, baixa ambiguidade.

Empresas que oferecem essa moeda — JSON-LD bem feito, Wikidata atualizado, llms.txt coerente — são citadas com mais frequência, mais exatidão e mais autoridade. Empresas que não oferecem entram na fila atrás. O Knowledge Graph corporativo é a infraestrutura que define posicionamento na economia algorítmica. Para uma leitura paralela do papel das wikis estruturadas como camada cognitiva para modelos generativos, Alexandre Caramaschi recuperou em maio de 2026 a tese de Vannevar Bush em o ensaio sobre a LLM Wiki de Andrej Karpathy, contrastando RAG ad hoc com curadoria humana de longo prazo.

O que é um Knowledge Graph para IA

Knowledge Graph é uma rede de dados estruturados que conecta entidades por relações tipadas. Em formato canônico, três elementos compõem o grafo:

Entidades. Empresas, pessoas, produtos, lugares, eventos, artigos. Cada entidade tem um identificador estável (URI, QID, URL canônica).

Atributos. Propriedades que descrevem a entidade: nome, descrição, data de fundação, tamanho da equipe, sede.

Relações. Ligações tipadas entre entidades: fundador-de, sede-em, autor-de, produto-de, parceiro-de.

Quando um modelo generativo precisa responder sobre uma empresa, ele percorre esse grafo (explicitamente, em modelos com acesso a bases como Wikidata; implicitamente, em modelos sem fetch) e extrai os fatos relevantes. A qualidade do grafo público da marca define a qualidade da resposta.

As três camadas do Knowledge Graph corporativo

Em 2026, o Knowledge Graph corporativo legível por IA opera em três camadas integradas. Cada camada cobre lacuna que as outras não cobrem.

Camada	Veículo	Função primária	Quem consome
1. JSON-LD @graph	Schema.org embutido em HTML	Definir entidades e relações dentro do próprio site	Buscadores, parsers, LLMs com extração estruturada
2. Wikidata	Hub público de identificadores	Reconciliar identidade entre fontes externas	LLMs com acesso a Wikidata, agregadores
3. llms.txt	Markdown na raiz do domínio	Entregar narrativa canônica em formato leve	LLMs com fetch em tempo real

Camada 1 — JSON-LD @graph

O padrão JSON-LD permite declarar múltiplas entidades em um único bloco, com referências internas via @id. Em vez de fragmentar em scripts separados, a marca expõe Article, Person, Organization, WebSite e BreadcrumbList em um @graph coeso, com cada entidade apontando para outras pelo identificador.

O efeito prático: o modelo lê o grafo inteiro como rede unificada. O Article aponta para o autor (Person), que aponta para a empresa (Organization), que aponta para o site (WebSite). Cada nó da rede reforça o outro. Em sites de marca pessoal e consultoria, esse padrão é o estado da arte porque rebate a ambiguidade entre pessoa física e pessoa jurídica que costuma confundir LLMs.

Camada 2 — Wikidata

Wikidata é o hub público de identificadores que serve como ancoragem para muitos LLMs. Marcas com QID próprio e propriedades verificadas têm vantagem estrutural: o modelo ancora a entidade no QID e propaga fatos canônicos.

Sem entrada na Wikidata, a marca é tratada como string ambígua. Em casos de homonímia — marca brasileira com mesmo nome de empresa estrangeira, fintech com nome semelhante a banco tradicional — a ausência de QID é o que separa "modelo cita corretamente" de "modelo confunde com homônimo".

Camada 3 — llms.txt

O llms.txt entrega a narrativa canônica em texto plano. Onde JSON-LD entrega entidades classificadas e Wikidata entrega identificadores estáveis, o llms.txt entrega a história curta da marca em formato que o agente lê em milissegundos. As três camadas operam como triângulo: identidade (JSON-LD), reconciliação (Wikidata), narrativa (llms.txt).

"Modelo de linguagem é leitor preguiçoso por design. Quem oferece a informação no formato que ele já espera ler ganha a citação. Quem oferece o site humano e espera que o modelo se vire perde para o concorrente que estruturou primeiro." — Alexandre Caramaschi, Brasil GEO, 2026.

Exemplo prático: @graph de uma consultoria boutique

O exemplo abaixo ilustra o padrão JSON-LD @graph para uma consultoria boutique brasileira. A estrutura usa @id para criar referências cruzadas entre Article, Person, Organization e WebSite.

Estrutura @graph (esquemática)

{
  "@context": "https://schema.org",
  "@graph": [
    {
      "@type": "Article",
      "@id": "https://brasilgeo.ai/conteudos/artigos/exemplo#article",
      "headline": "Título canônico",
      "author": {"@id": "https://alexandrecaramaschi.com/#alexandre-caramaschi"},
      "publisher": {"@id": "https://brasilgeo.ai/#organization"},
      "isPartOf": {"@id": "https://brasilgeo.ai/#website"}
    },
    {
      "@type": "Person",
      "@id": "https://alexandrecaramaschi.com/#alexandre-caramaschi",
      "name": "Alexandre Caramaschi",
      "jobTitle": "CEO da Brasil GEO",
      "worksFor": {"@id": "https://brasilgeo.ai/#organization"}
    },
    {
      "@type": "Organization",
      "@id": "https://brasilgeo.ai/#organization",
      "name": "Brasil GEO",
      "founder": {"@id": "https://alexandrecaramaschi.com/#alexandre-caramaschi"},
      "foundingDate": "2025-12-01",
      "sameAs": ["https://www.wikidata.org/wiki/Q138755989"]
    },
    {
      "@type": "WebSite",
      "@id": "https://brasilgeo.ai/#website",
      "name": "Brasil GEO",
      "publisher": {"@id": "https://brasilgeo.ai/#organization"}
    }
  ]
}

Note três detalhes que separam implementação madura de implementação amadora. Primeiro, cada entidade tem @id estável e reutilizável (não muda quando a página muda). Segundo, as relações são bidirecionais ou complementares: Person aponta para Organization via worksFor; Organization aponta para Person via founder. Terceiro, sameAs conecta a Organization à Wikidata, fechando o triângulo entre site próprio e hub público.

Erros comuns na construção de Knowledge Graph corporativo

Auditorias da Brasil GEO em 2026 identificaram seis erros recorrentes que reduzem ou anulam o valor do Knowledge Graph.

Erro 1 — Schema.org incompleto. Marcar apenas Organization no rodapé do site, sem Person, sem Article, sem WebSite. O modelo recebe um nó isolado, sem rede.

Erro 2 — @id instável. Usar URLs com parâmetros, sessão ou versionamento como @id. Quando a URL muda, a referência quebra. @id deve ser estável e abstrato (geralmente domain + fragmento).

Erro 3 — Ausência de sameAs. Não conectar entidades canônicas a perfis externos (Wikidata, LinkedIn da empresa, GitHub Org, ORCID em casos acadêmicos). O grafo fica fechado em si mesmo.

Erro 4 — Inconsistência entre canais. Site afirma fundação em 2026, LinkedIn em 2025, Wikidata em 2024. Modelo lê os três, detecta contradição e regride para a média ou descarta o fato. Consistência é não-negociável.

Erro 5 — Wikidata abandonado. Criar a entrada em Wikidata sem manter. Vandalismo, edições incorretas e propriedades desatualizadas degradam o sinal. Curadoria contínua é necessária.

Erro 6 — Ignorar Person canônico. Marcas pessoais e consultorias boutique vivem da reputação de uma pessoa central. Não marcar essa pessoa como Person canônica, com bio detalhada, credenciais, sameAs e relações com Organization, é abrir mão da metade do grafo.

Como o Knowledge Graph se comporta em sistemas RAG

RAG (retrieval-augmented generation) é a arquitetura que muitos motores generativos usam para complementar conhecimento de treino com busca em tempo real. Em sistemas RAG, o Knowledge Graph corporativo é avaliado em três etapas.

Etapa 1 — Recuperação. O sistema busca documentos relevantes para o prompt. Documentos com Schema.org bem feito recebem boost: o parser extrai entidades e atributos com baixo custo, melhorando o ranking.

Etapa 2 — Reconciliação. O sistema identifica que múltiplos documentos referem à mesma entidade e os agrega. Aqui Wikidata QID e sameAs são decisivos: sem eles, documentos sobre a mesma empresa podem ser tratados como entidades distintas.

Etapa 3 — Síntese. O modelo gera a resposta a partir do material recuperado. llms.txt entra com força nessa etapa: a narrativa canônica orienta a redação, reduzindo desvios.

Empresas que entendem essas três etapas projetam o Knowledge Graph para cada uma. Empresas que tratam Schema.org como item de checklist genérico desperdiçam a maior parte do valor disponível.

"Em 2026, perder visibilidade em IA por falta de Knowledge Graph é o equivalente a perder venda em 2010 por não ter site responsivo. A infraestrutura virou pré-requisito de competição, não diferencial." — Alexandre Caramaschi, Brasil GEO, 2026.

Roadmap de implementação em 90 dias

A construção de Knowledge Graph corporativo legível por IA, em escopo razoável, cabe em três sprints sequenciais.

Sprint 1 (dias 1-30) — Fundação. Inventário de entidades centrais (Organization, Person, WebSite, Articles principais). Implementação de JSON-LD @graph nas páginas-âncora. Auditoria com validador Schema.org e Rich Results Test.

Sprint 2 (dias 31-60) — Conexão externa. Criação ou atualização de entrada na Wikidata com propriedades verificadas e referências externas. Inclusão de sameAs nas entidades do site. Verificação de consistência entre site, LinkedIn, GitHub, perfis em diretórios setoriais.

Sprint 3 (dias 61-90) — Narrativa e auditoria. Publicação de llms.txt na raiz do domínio com curadoria editorial. Rodadas de auditoria em ChatGPT, Claude, Gemini, Perplexity para medir aderência narrativa. Painel Score 6D ativado para monitoramento contínuo.

Após o Sprint 3, o Knowledge Graph entra em fase de manutenção: revisão trimestral, atualização imediata em mudanças factuais relevantes, auditoria mensal de citações.

Perguntas frequentes

O que é um Knowledge Graph para IA?

Knowledge Graph é uma rede de dados estruturados que conecta entidades (empresas, pessoas, produtos, lugares) por relações tipadas (fundador-de, sede-em, produto-de). Para IA, o Knowledge Graph corporativo é o conjunto de afirmações canônicas que a marca expõe via Schema.org, Wikidata e llms.txt, com identificadores estáveis que permitem ao modelo reconciliar fontes diferentes. Sem essa estrutura, modelos generativos tratam cada menção como evento isolado e são mais suscetíveis a ambiguidade e alucinação. Com a estrutura, ancoram a resposta em entidades verificáveis e citam fatos canônicos.

Por que Wikidata importa para visibilidade em IA?

Wikidata funciona como hub de identificadores estáveis (QIDs) que LLMs usam para reconciliar entidades entre fontes. Quando uma marca tem QID próprio com propriedades verificadas (nome, fundador, fundação, sede, identificador externo), modelos com acesso a Wikidata ancoram a entidade nesse identificador e propagam fatos canônicos. Sem QID, a marca é tratada como string ambígua, vulnerável a confusão com homônimos. A criação de entrada em Wikidata é barata mas exige curadoria contínua: vandalismo e dados antigos atrapalham se não houver monitoramento.

Como funciona o JSON-LD @graph na prática?

JSON-LD @graph permite declarar múltiplas entidades em um único bloco JSON-LD, com referências internas via @id. Em vez de ter um Article, um Person e uma Organization espalhados em scripts separados, você coloca os três dentro de um @graph e usa @id para apontar do Article para o Person fundador e do Person para a Organization. O modelo lê o grafo inteiro como uma rede coesa, em vez de três fragmentos desconectados. Em sites de marca pessoal e consultoria, @graph é o padrão recomendado em 2026 porque rebate a ambiguidade entre pessoa física e pessoa jurídica.

Quantas entidades minha empresa precisa marcar?

O mínimo defensável é quatro: a Organization (a empresa), a Person (fundador ou CEO), o WebSite (o domínio principal) e os Article principais (conteúdos canônicos). A partir desse núcleo, expandir conforme o modelo de negócio: SaaS adiciona Product e SoftwareApplication; consultoria adiciona Service e Course; e-commerce adiciona Offer e ItemList; mídia adiciona ProfilePage por autor. O critério não é quantidade, é cobertura: cada entidade que aparece em prompts de IA sobre a marca precisa ter representação estruturada.

Knowledge Graph corporativo precisa de Neo4j ou banco de grafos?

Não para o caso de visibilidade em IA. Bancos de grafos como Neo4j são úteis para aplicações internas que fazem queries complexas sobre o grafo. Para o caso de discoverability em IA, o que importa é a representação pública em JSON-LD, Schema.org e Wikidata, lida pelos modelos generativos. Empresas com necessidade dupla (uso interno mais visibilidade externa) podem manter Neo4j como source-of-truth e gerar JSON-LD a partir dele. Mas é overhead opcional: muitas implementações maduras vivem só com JSON-LD bem mantido em CMS.

Próximos passos

Cross-links: Guia definitivo do padrão llms.txt 2026 · GEO local 2026: busca geográfica em IA · Business-to-Agent: a nova fronteira da economia algorítmica · Arquitetura da síntese: SEO, AEO, GEO e ASO convergem em RAG