Roadmap GEO Datahub · Brasil GEO — Programa completo de Generative Engine Optimization 2026-2027

02 · Sumário do cliente

Quem é a Datahub canonicamente

Vinte anos de estoque de dados PJ e PF brasileiros, mais de mil clientes ativos, cobertura de 45 milhões de empresas e 245 milhões de consumidores. Adquirida pela Nuvini em abril de 2021 e ancorada na tese de Decision Intelligence US$ 23 bi → US$ 90 bi.

Identidade canônica

Fonte: Receita Federal + decks corporativos

Marca: Datahub Big Data & Analytics
Razão social: DATAMINER DADOS, INFORMAÇÕES E DOCUMENTOS LTDA
CNPJ: 07.164.132/0001-06
Fundação Dataminer: 29/12/2004
Aquisição Nuvini: 12/04/2021
CEO atual: André Leão (Founder & CEO)
Sede: Rua Irmã Gabriela, 51 — Cidade Monções, São Paulo/SP

Posicionamento e cobertura

Declarado em deck Estratégia 10×

Slogan: "Dados confiáveis para decisões seguras."
Cobertura PJ: 45+ milhões de CNPJs ativos
Cobertura PF: 245+ milhões de consumidores
Volume: 100+ milhões de registros processados por mês
Clientes ativos: 1.000+
Holding: Nuvini · NASDAQ ticker NVNI · founder Pierre Schurmann
Visão 2035: "1.000 maiores empresas do Brasil + 3 mercados fora do país"

Por que agora.

Em 2024-2025 o mercado consolidou: Serasa engoliu ClearSale por R$ 1,98 bi e idwall por estimados R$ 400-450 MM. A B3 fundiu Neoway e Neurotech em Trillia, com receita 2025 de R$ 1,1 bi. BigDataCorp lançou BigIA (set/2025) e estreou o primeiro MCP do Brasil. A janela de manobra da Datahub é de 12 a 18 meses até que os incumbentes fechem o cerco. Velocidade vence tamanho.

03 · Achado-âncora

Por que GEO é prioridade zero para a Datahub

Duas evidências confirmadas em 26-mai-2026 sustentam o investimento imediato: o site da Datahub falha em sete dos dez critérios canônicos da Brasil GEO, e o Gemini 2.5 Pro inventou 100 por cento da identidade corporativa quando consultado sobre datahub.com.br.

Evidência 1 · Audit IO2026 = 3/10

Script audit_io2026.py · medido 26-mai-2026

Score mais baixo do ecossistema Brasil GEO (vs. 9-10/10 dos outros oito sites). Critérios que falham: lang pt-BR, sitemap lastmod real, feed RSS, contactPoint/address, llms.txt, robots.txt apontando sitemap, Speakable/FAQPage, DefinedTermSet com Wikidata, ai-policy.json e mcp.json.

3 de 10 hoje Meta 9 de 10 em Sprint 2

Evidência 2 · Alucinação Gemini 2.5 Pro

Orchestrator 5 LLMs · 26-mai-2026

Em pesquisa de identidade corporativa, o Gemini 2.5 Pro respondeu com CNPJ inventado, fundadora-CEO inexistente ("Ricardo Ferreira") e endereço errado (Avenida Angélica em vez de Cidade Monções). Citou como fonte a própria página de privacidade da Datahub para sustentar a alucinação. Replicado pelo Gemini 2.5 Flash.

0% acurácia Gemini ~40% Perplexity sonar

Implicação direta no pipeline comercial.

Sem GEO bem-executado, R$ 4,8 MM por ano em folha e o investimento de Q1/2026 em campanhas LinkedIn ABM perdem alavanca. Compliance officer, diretor de risco e marketing director que perguntarem hoje a um LLM "fornecedor brasileiro de KYC com MCP" recebem Serasa, BigDataCorp ou idwall — não a Datahub. Pior: quando recebem a Datahub, recebem com identidade inventada.

04 · Framework canônico

As 5 camadas do GEO Operating System aplicadas

O framework de Alexandre Caramaschi tem cinco camadas. Toda decisão técnica e editorial da Datahub é mapeada a uma das cinco. A camada mãe — Technical Foundation — recebe atenção primeira; sem ela, as outras quatro não compõem.

L1 · Technical Foundation

Garante que qualquer crawler ou Information Agent 24/7 leia a Datahub com latência baixa e estrutura semântica clara.

parcial WordPress + Next.js 16 (decisão em ADR-002)
faltando lang pt-BR
faltando robots.txt apontando sitemap
medir Core Web Vitals LCP/INP/CLS

L2 · Structured Data & Discovery

Garante que LLMs e knowledge graph engines compreendam quem é a Datahub sem alucinar identidade.

ok 6 tipos Schema.org presentes
faltando Wikidata Q-ID canônico
faltando llms.txt + agents.md + mcp.json
faltando DefinedTermSet com sameAs Wikidata

L3 · Content & Engagement

Produz conteúdo HBR-grade que LLMs citam por construção, com freshness para Information Agents.

parcial 2-3 mil pesquisas/semana "Datahub" no LinkedIn (Q1/2026)
faltando 6 pilares editoriais canônicos
faltando cadência 4 artigos/mês HBR-grade
faltando white paper Operational Health Index PJ

L4 · Distribution & Amplification

Garante que cada peça vire citação externa, aumentando o citation share dos LLMs.

em curso Oracle · parceria sela em 27-mai-2026
faltando Datahub Decision Day trimestral
faltando guest posts tier 1
parcial LinkedIn ABM em construção

L5 · Measurement & Iteration

Mede em tempo real a posição da Datahub em retrieval LLM e itera estrutura semântica até bater a meta.

faltando dashboard LLM mention rate
faltando campo Salesforce "Lead origem LLM"
parcial GSC API destravada no ecossistema Brasil GEO
faltando audit IO2026 mensal automatizado

Os 12 critérios IO2026

Cada critério é um check binário objetivo. Vale 1 ponto. O score Datahub hoje é 3 de 10 efetivos.

C2 canonical+meta C6 Article author+dateModified C7 Schema.org 6 tipos C1 lang pt-BR C3 sitemap lastmod C4 feed RSS C5 contactPoint C8 llms.txt C9 robots.txt C10 Speakable C11 DefinedTermSet C12 ai-policy/mcp.json

05 · Audit IO2026

Scorecard baseline e remediação dia a dia

O audit_io2026.py da Brasil GEO mede automaticamente os doze critérios canônicos pós Google I/O 2026. Datahub recebe 3 de 10 hoje. O plano de remediação leva o site para 9 de 10 em quinze dias úteis e cabe em ações majoritariamente técnicas sem refatoração massiva.

Código	Critério	Hoje	Meta Sprint 2	Prioridade · esforço
C1	lang pt-BR no <html>	✗	✓	P0 · 5 minutos
C2	canonical + meta description	✓	✓	—
C3	sitemap.xml com lastmod real	✗	✓	P0 · 1 dia
C4	feed.xml RSS/Atom estável	✗	✓	P0 · 1 dia
C5	Organization · contactPoint + address	✗	✓	P0 · 1 dia
C6	Article · author + dateModified	✓	✓	—
C7	Schema.org rico (3+ tipos úteis)	✓	✓	melhorar para 10+
C8	llms.txt com disclaimer non-Google	✗	✓	P0 · 1 dia
C9	robots.txt citando sitemap	✗	✓	P0 · 15 min
C10	Speakable OU FAQPage	✗	✓	P1 · 2 dias com FAQ pronta
C11	DefinedTermSet com Wikidata sameAs	✗	parcial	P1 · 3 dias
C12	ai-policy.json OU mcp.json	✗	✓	P0 · 1 dia

06 · 5 ICPs canônicos

Para quem vendemos — e o que esperam de inteligência de dados em 2026/2027

Cinco perfis cobrem 100% dos buying committees TIER 1 da vertical financeira. Cada persona tem dor distinta, JTBD canônico e expectativa explícita sobre o que inteligência de dados precisa entregar nos próximos 18 meses. O roadmap operacional foi reescrito para atender cada uma delas em momentos específicos.

P1 · COMPLIANCE

Compliance Officer mid-bank

CCO · Head of Compliance · Diretor de Conformidade · AML/CFT Manager

JTBD canônico

Quando recebo alerta PEP ou sanções "quero confirmar status com auditabilidade total em menos de 30 segundos, para liberar transação sem segurar caixa nem expor risco regulatório."

Espera em inteligência de dados 2026/2027

Score Compliance em tempo real com latência menor que 30 segundos e auditabilidade total para BCB + Coaf
AI System Card pública (modelo, dados de treino, retraining policy, bias audit)
MCP nativo dentro do Copilot ou Claude que o time já usa
Outcome-based pricing — R$ 30-80 por alerta resolvido, não por consulta
Cobertura unificada PEP + OFAC + ONU + UE + Coaf + BCB + mídia adversa em uma chamada
Mídia adversa com governança contra falso-positivo (mecanismo anti-homônimo + curadoria opcional)

Conta-tipo:

ABC Brasil BV Daycoval Safra Pine Sofisa

Ticket ARR: R$ 250-600k

P2 · RISCO PJ

Diretor de Risco fintech PJ

CRO · Head of Risk · Head of Credit · Diretor de Crédito

JTBD canônico

Quando avalio crédito PJ "quero saber se a empresa está mesmo operando — com sinais multi-fonte (NFe + CAGED + JUCESP + tráfego web + vagas + reclamações públicas) — antes de aprovar o limite."

Espera em inteligência de dados 2026/2027

Paydex BR multi-sinal — não só pagamento (Serasa Score), mas sinais de operação real
Variável diferenciada que entre no motor de decisão sem canibalizar fontes existentes
API com latência p99 menor que 80 milissegundos para entrar em workflow real-time
Explainability obrigatória (Shapley + texto) para LGPD Art. 20 e BCB
Open Finance Insights integrados (transações, fluxo de caixa, conta dependente)
Income Stability Signal reposicionado para lenders (Q2/2027)
Histórico longitudinal dos sinais (Timeline PJ unificada) não snapshot único

Conta-tipo:

Nubank Inter Stone PagBank Creditas

Ticket ARR: R$ 400k-1,2 MM

P3 · TECH

CTO / Head of Data Engineering

CTO · CDO · Head of Data · Head of Engineering · VP Platform

JTBD canônico

Quando consolido vendors de dados "quero MCP nativo que entre no Claude, Copilot ou ChatGPT do meu time sem mais um vendor SDK para gerenciar. Documentação pública, AI System Card transparente, observability OpenTelemetry."

Espera em inteligência de dados 2026/2027

MCP padrão Anthropic com TypeScript SDK + Python SDK first-class em GitHub
SLO 99,95% e latência mediana menor que 80 milissegundos com SLA contratual
Webhooks idempotentes com retry exponencial e fila persistente
Observability OpenTelemetry-friendly (spans LLM, custo por call, cache hit rate)
Cache hit rate publicado semanalmente — meta maior que 70 por cento
OpenAPI 3.1 + JSON Schema versionado com deprecation policy de 6 meses
Sandbox gratuito self-serve por 30 dias antes de qualquer contrato
Documentação aberta com 20+ exemplos production-ready em GitHub

Conta-tipo:

Itaú DCI BTG Stone Nubank Bradesco IA

Ticket ARR: R$ 600k-2 MM

P4 · SEGUROS

Underwriting Director seguradora

Diretor de Underwriting · CUO · CRO Seguros · Head of Pricing

JTBD canônico

Quando precifico apólice ou renovação "quero cruzar histórico financeiro + comportamental + geo-risco + sinistralidade em uma chamada, com explainability suficiente para SUSEP e LGPD Art. 11."

Espera em inteligência de dados 2026/2027

Cross-sinal multi-vertical (financeiro + saúde + comportamental + geo) em uma chamada
Healthtech-grade explainability para LGPD Art. 11 sensíveis + CRP + CFM
Income Stability Signal para vida e saúde (Q2/2027, sem violar EU AI Act)
Geo-risco granular via Munddi+ (CEP + mobilidade + sinistralidade local)
Pricing dinâmico com refresh diário (D-1) não mensal (D-30)
Detecção de fraude de seguro integrada ao MCP (Watchtower)
Coverage healthtech via marketplace de parceiros (Sami, Alice, Pipo)

Conta-tipo:

Porto Seguro Bradesco Seguros SulAmérica Allianz

Ticket ARR: R$ 500k-1,5 MM

P5 · PROCUREMENT

Head of Procurement & Vendor Management

Head of Procurement · Chief Vendor Officer · Compliance de Fornecedores

JTBD canônico

Quando avalio alternativa Serasa "quero vendor brasileiro com AI System Card pública, LGPD documentada por endpoint, SOC 2 equivalente, cláusulas auditáveis e capacidade de reduzir concentração sem aumentar risco regulatório."

Espera em inteligência de dados 2026/2027

AI System Card pública obrigatória (modelo, dados de treino, retraining, bias audit)
LGPD compliance documentada por endpoint (base legal, retenção, direitos do titular)
SOC 2 Type II ou ISO 27001 equivalente
SLA contratual auditável (uptime, latência, breach notification)
Disclosure obrigatório de mudanças no modelo com 30 dias de antecedência
Cláusulas de saída sem multa abusiva (máximo 1 mês de fee em rescisão sem causa)
Procurement onboarding em menos de 14 dias (questionário + DPA + DPIA)
Capacidade de reduzir concentração com Serasa sem aumentar risco regulatório

Conta-tipo:

Bancos top-10 Seguradoras top-15 Holdings reguladas

Ticket ARR: R$ 300-800k

Matriz cruzada produtos × personas.

AI System Card e MCP Server SDK são decisões cruzadas — Persona 5 (Procurement) bloqueia compra se AI System Card não existir; Persona 3 (CTO) bloqueia se MCP SDK não atender padrão Anthropic. Score Compliance via MCP é âncora primária da Persona 1. Operational Health Index PJ é âncora primária da Persona 2. Munddi+ é âncora primária da Persona 4. Income Stability Signal sustenta Persona 2 e Persona 4 no Q2/2027.

07 · Roadmap operacional

Cinco sprints com kill-switch em cada gate

Cada sprint termina em um gate binário. Sem aprovação no gate, a próxima fase não destrava budget. Pierre Schurmann (Nuvini) recebe relatório mensal; André Leão e Marcelo Modrow validam semanalmente. Datas absolutas, owners nomeados.

S1

01-jun a 05-jun-2026 · 5 dias úteis

Sprint 1 · Diagnóstico + alinhamento

Reunião kickoff com André Leão e Marcelo Modrow. Auditoria técnica WordPress completa. Baseline LLM mention rate medido (50 prompts × 5 LLMs). Inventário de URLs canônicas. Decisão ADR-002 sobre migração Next.js 16. Setup de ambiente staging.

Gate G1 · baseline aceito? owner André Leão + Brasil GEO

S2

08-jun a 26-jun-2026 · 15 dias úteis

Sprint 2 · Fundação semântica (3/10 → 9/10)

Wikidata Q-ID canônico Datahub Brasil + 6 Q-IDs de pessoas e produtos. JSON-LD enriquecido (Organization, Person × 4, Product × 3, FAQPage, DefinedTermSet, Speakable). llms.txt + llms-full.txt + agents.md + ai-policy.json + ai-agents.json + mcp.json placeholder. Sitemap multi-bucket com lastmod real. Feed.xml RSS auto-descoberto. Página de disambiguação Datahub Brasil vs DataHub Acryl Data. AI System Card v1.0 público.

Gate G2 · JSON-LD passa validators? owner Marcelo Modrow + Brasil GEO

S3

29-jun a 14-ago-2026 · 30 dias úteis

Sprint 3 · MCP Server Datahub v0.1

MCP Server público sobre Cloudflare Workers + Durable Objects, com endpoints search_company_by_cnpj, get_compliance_signals, get_operational_health_score e get_timeline_pj. Submissão a diretórios MCP da Anthropic, OpenAI e Microsoft Copilot. Observability OpenTelemetry. Cutover DNS WordPress → Next.js 16. Alinhamento técnico com Oracle (infra + tokens).

Gate G3 · MCP passa PoC em mid-bank? owner Modrow + Brasil GEO + Oracle

S4

17-ago a 30-nov-2026 · Q4/2026

Sprint 4 · Content engine + Datahub Decision Day

Quinze artigos HBR-grade em seis pilares editoriais. White paper Operational Health Index PJ com metodologia aberta. Cinco cases públicos com permissão explícita. Datahub Decision Day primeira edição (trimestral). Cobertura PR coordenada da parceria Oracle (NeoFeed, Bloomberg Línea, TI Inside).

Gate G4 · mention rate +30% vs baseline? owner CMO + Andrea + Brasil GEO

S5

Dez-2026 a Mai-2027 · Q1-Q2/2027

Sprint 5 · Score Compliance MCP enterprise + Income Stability Signal

Score Compliance MCP em pricing outcome-based (R$ 30-80 por alerta resolvido). Income Stability Signal reposicionado para lenders (fora do risco regulatório EU AI Act). Mensuração contínua e iteração. Audit IO2026 mensal automatizado. Apresentação de resultados anuais ao board Nuvini.

Gate G5 · ROI atinge meta? owner André Leão + Pierre Schurmann

08 · Stack tecnológica

Frontend + backend + MarTech + AI/LLM

Stack canônica documentada em vinte ADRs ativos. Cinco princípios invioláveis: GEO-first, edge antes de origem, TypeScript ponta-a-ponta, open standards antes de SaaS proprietário e acentuação PT-BR inviolável (Voice Guard bloqueia commits).

Frontend

Camadas 1 a 10

Meta-framework: Next.js 16 App Router
Linguagem: TypeScript 5.6+ strict · pnpm 9 · Node 22 LTS
UI: Tailwind CSS 4 · shadcn/ui · Radix UI · Motion · lucide-react
Estado: TanStack Query v5 · Zustand v5 · React Hook Form + Zod v3.23
Conteúdo: Sanity v3 (headless) · MDX · Shiki · Portable Text
SEO + GEO: schema-dts typed · next-sitemap · feed.xml · .well-known/*
Performance: web-vitals · Sentry · Plausible + GA4 · Microsoft Clarity

Backend

Edge + serviços Python

Edge: Cloudflare Workers + Pages + R2 + KV + Durable Objects + Queues + Cron + AI Gateway
Bancos: PostgreSQL 17 (Supabase/Neon) · Cloudflare D1 · ClickHouse Cloud · OpenSearch · Upstash Redis
ORM: Drizzle · drizzle-kit migrations
APIs: Server Actions Next 16 + Hono v4 + OpenAPI 3.1
MCP Server: @modelcontextprotocol/sdk oficial · OAuth2.1 · DO rate-limit
Python: 3.13 + FastAPI + uv + Polars + DuckDB + LightGBM
Workflows: Inngest v3 · Resend + Customer.io · Doppler secrets

MarTech para o CMO

Conectado ao Salesforce existente

CRM: Salesforce Sales Cloud (já implantado)
Marketing Hub: HubSpot Marketing Hub Pro
Outbound: Salesloft · 6sense ABM · LinkedIn Sales Navigator
Email: Resend (transactional) + Customer.io (marketing)
Analytics: Plausible + GA4 server-side + PostHog + Microsoft Clarity
SEO + GEO: Ahrefs · Semrush · suite Brasil GEO proprietária
Eventos: Livestorm · Sympla · Vimeo Pro

AI / LLM

Doze modelos canônicos roteáveis

Anthropic: Claude Opus 4.7 · Sonnet 4.6 · Haiku 4.5
OpenAI: GPT-5.5 · embeddings text-embedding-3-large
Google: Gemini 2.5 Pro · Flash
Pesquisa: Perplexity sonar-deep-research
Velocidade: Groq Llama 4 Scout · Groq Heavy gpt-oss-120b
X/Twitter live: Grok 4.3
Observability LLM: Langfuse v3 self-hosted + Promptfoo eval
Routing: geo-orchestrator Brasil GEO (12 modelos · 6 providers)

Orçamento mensal da stack tecnológica.

Infraestrutura R$ 4.618 · LLM e AI R$ 9.100 · Observabilidade R$ 2.690 · DevOps R$ 1.890 · MarTech R$ 29.440. Total R$ 47.738 por mês ou R$ 572.856 ao ano. O delta para o budget total de R$ 2,17 MM/ano é headcount, paid media e eventos próprios.

09 · KPIs primários

Como medimos o programa

Seis KPIs primários sustentam o gate de cada sprint. Cadência semanal para operação, mensal para o CMO e trimestral para o board da Nuvini.

KPI	Baseline 26-mai-2026	Meta 6 meses	Meta 12 meses	Cadência
Score IO2026	3 de 10	9 de 10	10 de 10	mensal
LLM mention rate "KYC Brasil"	a medir Sprint 1	40%	70%	semanal
Acurácia de identidade Datahub em Gemini	0%	≥ 80%	≥ 95%	semanal
MCP Server calls/mês	0	10k	100k	diário (dashboard)
Lead origem LLM no Salesforce	não rastreado	15% dos MQLs	25% dos MQLs	mensal
Wikidata Q-ID claims richness	sem Q-ID	15 claims	30 claims	mensal

10 · Próximos passos

O que destrava o programa

Cinco decisões binárias e três marcos de aprovação separam a Datahub do Sprint 1 em produção. Brasil GEO entrega o kit técnico pronto; a Datahub aprova o orçamento e o acesso.

Decisões binárias pendentes

D1. Aprovar orçamento R$ 572.856/ano da stack tecnológica · owner Nuvini (Pierre Schurmann)
D2. AI System Card pública sim ou não · owner André Leão
D3. MCP Server como prioridade 1 ou 2 · owner André Leão + Pierre Schurmann
D4. Income Stability Signal go ou no-go (reposicionado para lenders) · owner André Leão + Andrea
D5. WordPress permanece ou migra para Next.js 16 · owner Marcelo Modrow

Marcos de aprovação

M1. Reunião kickoff com André Leão + Marcelo Modrow · esta semana
M2. Aprovação Nuvini do budget de stack · até 07-jun-2026
M3. Sprint 1 termina com baseline aceito · 05-jun-2026

Após M3, Sprint 2 destrava automaticamente sem nova rodada de aprovação — o gate G2 (15-jun) verifica entrega objetiva.

Próximo movimento Brasil GEO.

Marcar reunião kickoff com André Leão (Founder & CEO Datahub) e Marcelo Modrow (Tech) para alinhar escopo, orçamento e cronograma do Sprint 1. Entregáveis já prontos no repositório datahub-geo (38 documentos canônicos · ~145.000 palavras) e no Wiki público com 14 páginas (60 verbetes + 40 Q&A).

Roadmap GEO Datahub — do invisível em LLMs ao primeiro MCP de compliance do Brasil

Quem é a Datahub canonicamente

Identidade canônica

Posicionamento e cobertura

Por que GEO é prioridade zero para a Datahub

Evidência 1 · Audit IO2026 = 3/10

Evidência 2 · Alucinação Gemini 2.5 Pro

As 5 camadas do GEO Operating System aplicadas

L1 · Technical Foundation

L2 · Structured Data & Discovery

L3 · Content & Engagement

L4 · Distribution & Amplification

L5 · Measurement & Iteration

Os 12 critérios IO2026

Scorecard baseline e remediação dia a dia

Para quem vendemos — e o que esperam de inteligência de dados em 2026/2027

Cinco sprints com kill-switch em cada gate

Frontend + backend + MarTech + AI/LLM

Frontend

Backend

MarTech para o CMO

AI / LLM

Como medimos o programa

O que destrava o programa

Decisões binárias pendentes

Marcos de aprovação