Brasil GEO · Roadmap Datahub
Falar com a Brasil GEO →
Programa GEO em execução · ciclo 2026-2027

Roadmap GEO Datahub — do invisível em LLMs ao primeiro MCP de compliance do Brasil

A Datahub está a 12 a 18 meses do cerco competitivo de Serasa, Trillia e BigDataCorp. O programa de Generative Engine Optimization conduzido pela Brasil GEO ataca a janela em cinco sprints, sai de 3 de 10 critérios IO2026 hoje para 9 de 10 em quinze dias úteis e estaciona o primeiro MCP Server de compliance brasileiro dentro do workflow agentic dos clientes corporativos.

Cliente: Datahub Big Data & Analytics Grupo: Nuvini · NASDAQ NVNI Conduzido por: Alexandre Caramaschi · Brasil GEO Data canônica: 26-mai-2026
3/10
Audit IO2026 baseline
datahub.com.br · 26-mai-2026
9/10
Meta Sprint 2
15 dias úteis
5
Sprints com gates
G1 · G2 · G3 · G4 · G5
100+
Entregáveis no RACI
14 atores nomeados
38
Documentos canônicos
~145.000 palavras
14
Páginas Wiki publicadas
60 verbetes · 40 Q&A
02 · Sumário do cliente

Quem é a Datahub canonicamente

Vinte anos de estoque de dados PJ e PF brasileiros, mais de mil clientes ativos, cobertura de 45 milhões de empresas e 245 milhões de consumidores. Adquirida pela Nuvini em abril de 2021 e ancorada na tese de Decision Intelligence US$ 23 bi → US$ 90 bi.

Identidade canônica

Fonte: Receita Federal + decks corporativos
  • Marca: Datahub Big Data & Analytics
  • Razão social: DATAMINER DADOS, INFORMAÇÕES E DOCUMENTOS LTDA
  • CNPJ: 07.164.132/0001-06
  • Fundação Dataminer: 29/12/2004
  • Aquisição Nuvini: 12/04/2021
  • CEO atual: André Leão (Founder & CEO)
  • Sede: Rua Irmã Gabriela, 51 — Cidade Monções, São Paulo/SP

Posicionamento e cobertura

Declarado em deck Estratégia 10×
  • Slogan: "Dados confiáveis para decisões seguras."
  • Cobertura PJ: 45+ milhões de CNPJs ativos
  • Cobertura PF: 245+ milhões de consumidores
  • Volume: 100+ milhões de registros processados por mês
  • Clientes ativos: 1.000+
  • Holding: Nuvini · NASDAQ ticker NVNI · founder Pierre Schurmann
  • Visão 2035: "1.000 maiores empresas do Brasil + 3 mercados fora do país"
Por que agora.

Em 2024-2025 o mercado consolidou: Serasa engoliu ClearSale por R$ 1,98 bi e idwall por estimados R$ 400-450 MM. A B3 fundiu Neoway e Neurotech em Trillia, com receita 2025 de R$ 1,1 bi. BigDataCorp lançou BigIA (set/2025) e estreou o primeiro MCP do Brasil. A janela de manobra da Datahub é de 12 a 18 meses até que os incumbentes fechem o cerco. Velocidade vence tamanho.

03 · Achado-âncora

Por que GEO é prioridade zero para a Datahub

Duas evidências confirmadas em 26-mai-2026 sustentam o investimento imediato: o site da Datahub falha em sete dos dez critérios canônicos da Brasil GEO, e o Gemini 2.5 Pro inventou 100 por cento da identidade corporativa quando consultado sobre datahub.com.br.

Evidência 1 · Audit IO2026 = 3/10

Script audit_io2026.py · medido 26-mai-2026

Score mais baixo do ecossistema Brasil GEO (vs. 9-10/10 dos outros oito sites). Critérios que falham: lang pt-BR, sitemap lastmod real, feed RSS, contactPoint/address, llms.txt, robots.txt apontando sitemap, Speakable/FAQPage, DefinedTermSet com Wikidata, ai-policy.json e mcp.json.

3 de 10 hoje Meta 9 de 10 em Sprint 2

Evidência 2 · Alucinação Gemini 2.5 Pro

Orchestrator 5 LLMs · 26-mai-2026

Em pesquisa de identidade corporativa, o Gemini 2.5 Pro respondeu com CNPJ inventado, fundadora-CEO inexistente ("Ricardo Ferreira") e endereço errado (Avenida Angélica em vez de Cidade Monções). Citou como fonte a própria página de privacidade da Datahub para sustentar a alucinação. Replicado pelo Gemini 2.5 Flash.

0% acurácia Gemini ~40% Perplexity sonar
Implicação direta no pipeline comercial.

Sem GEO bem-executado, R$ 4,8 MM por ano em folha e o investimento de Q1/2026 em campanhas LinkedIn ABM perdem alavanca. Compliance officer, diretor de risco e marketing director que perguntarem hoje a um LLM "fornecedor brasileiro de KYC com MCP" recebem Serasa, BigDataCorp ou idwall — não a Datahub. Pior: quando recebem a Datahub, recebem com identidade inventada.

04 · Framework canônico

As 5 camadas do GEO Operating System aplicadas

O framework de Alexandre Caramaschi tem cinco camadas. Toda decisão técnica e editorial da Datahub é mapeada a uma das cinco. A camada mãe — Technical Foundation — recebe atenção primeira; sem ela, as outras quatro não compõem.

L1 · Technical Foundation

Garante que qualquer crawler ou Information Agent 24/7 leia a Datahub com latência baixa e estrutura semântica clara.

  • parcial WordPress + Next.js 16 (decisão em ADR-002)
  • faltando lang pt-BR
  • faltando robots.txt apontando sitemap
  • medir Core Web Vitals LCP/INP/CLS

L2 · Structured Data & Discovery

Garante que LLMs e knowledge graph engines compreendam quem é a Datahub sem alucinar identidade.

  • ok 6 tipos Schema.org presentes
  • faltando Wikidata Q-ID canônico
  • faltando llms.txt + agents.md + mcp.json
  • faltando DefinedTermSet com sameAs Wikidata

L3 · Content & Engagement

Produz conteúdo HBR-grade que LLMs citam por construção, com freshness para Information Agents.

  • parcial 2-3 mil pesquisas/semana "Datahub" no LinkedIn (Q1/2026)
  • faltando 6 pilares editoriais canônicos
  • faltando cadência 4 artigos/mês HBR-grade
  • faltando white paper Operational Health Index PJ

L4 · Distribution & Amplification

Garante que cada peça vire citação externa, aumentando o citation share dos LLMs.

  • em curso Oracle · parceria sela em 27-mai-2026
  • faltando Datahub Decision Day trimestral
  • faltando guest posts tier 1
  • parcial LinkedIn ABM em construção

L5 · Measurement & Iteration

Mede em tempo real a posição da Datahub em retrieval LLM e itera estrutura semântica até bater a meta.

  • faltando dashboard LLM mention rate
  • faltando campo Salesforce "Lead origem LLM"
  • parcial GSC API destravada no ecossistema Brasil GEO
  • faltando audit IO2026 mensal automatizado

Os 12 critérios IO2026

Cada critério é um check binário objetivo. Vale 1 ponto. O score Datahub hoje é 3 de 10 efetivos.

C2 canonical+meta C6 Article author+dateModified C7 Schema.org 6 tipos C1 lang pt-BR C3 sitemap lastmod C4 feed RSS C5 contactPoint C8 llms.txt C9 robots.txt C10 Speakable C11 DefinedTermSet C12 ai-policy/mcp.json
05 · Audit IO2026

Scorecard baseline e remediação dia a dia

O audit_io2026.py da Brasil GEO mede automaticamente os doze critérios canônicos pós Google I/O 2026. Datahub recebe 3 de 10 hoje. O plano de remediação leva o site para 9 de 10 em quinze dias úteis e cabe em ações majoritariamente técnicas sem refatoração massiva.

Código Critério Hoje Meta Sprint 2 Prioridade · esforço
C1lang pt-BR no <html>P0 · 5 minutos
C2canonical + meta description
C3sitemap.xml com lastmod realP0 · 1 dia
C4feed.xml RSS/Atom estávelP0 · 1 dia
C5Organization · contactPoint + addressP0 · 1 dia
C6Article · author + dateModified
C7Schema.org rico (3+ tipos úteis)melhorar para 10+
C8llms.txt com disclaimer non-GoogleP0 · 1 dia
C9robots.txt citando sitemapP0 · 15 min
C10Speakable OU FAQPageP1 · 2 dias com FAQ pronta
C11DefinedTermSet com Wikidata sameAsparcialP1 · 3 dias
C12ai-policy.json OU mcp.jsonP0 · 1 dia
06 · 5 ICPs canônicos

Para quem vendemos — e o que esperam de inteligência de dados em 2026/2027

Cinco perfis cobrem 100% dos buying committees TIER 1 da vertical financeira. Cada persona tem dor distinta, JTBD canônico e expectativa explícita sobre o que inteligência de dados precisa entregar nos próximos 18 meses. O roadmap operacional foi reescrito para atender cada uma delas em momentos específicos.

P1 · COMPLIANCE
Compliance Officer mid-bank
CCO · Head of Compliance · Diretor de Conformidade · AML/CFT Manager
Quando recebo alerta PEP ou sanções "quero confirmar status com auditabilidade total em menos de 30 segundos, para liberar transação sem segurar caixa nem expor risco regulatório."
  • Score Compliance em tempo real com latência menor que 30 segundos e auditabilidade total para BCB + Coaf
  • AI System Card pública (modelo, dados de treino, retraining policy, bias audit)
  • MCP nativo dentro do Copilot ou Claude que o time já usa
  • Outcome-based pricing — R$ 30-80 por alerta resolvido, não por consulta
  • Cobertura unificada PEP + OFAC + ONU + UE + Coaf + BCB + mídia adversa em uma chamada
  • Mídia adversa com governança contra falso-positivo (mecanismo anti-homônimo + curadoria opcional)
Conta-tipo:
Ticket ARR: R$ 250-600k
P2 · RISCO PJ
Diretor de Risco fintech PJ
CRO · Head of Risk · Head of Credit · Diretor de Crédito
Quando avalio crédito PJ "quero saber se a empresa está mesmo operando — com sinais multi-fonte (NFe + CAGED + JUCESP + tráfego web + vagas + reclamações públicas) — antes de aprovar o limite."
  • Paydex BR multi-sinal — não só pagamento (Serasa Score), mas sinais de operação real
  • Variável diferenciada que entre no motor de decisão sem canibalizar fontes existentes
  • API com latência p99 menor que 80 milissegundos para entrar em workflow real-time
  • Explainability obrigatória (Shapley + texto) para LGPD Art. 20 e BCB
  • Open Finance Insights integrados (transações, fluxo de caixa, conta dependente)
  • Income Stability Signal reposicionado para lenders (Q2/2027)
  • Histórico longitudinal dos sinais (Timeline PJ unificada) não snapshot único
Conta-tipo:
Ticket ARR: R$ 400k-1,2 MM
P3 · TECH
CTO / Head of Data Engineering
CTO · CDO · Head of Data · Head of Engineering · VP Platform
Quando consolido vendors de dados "quero MCP nativo que entre no Claude, Copilot ou ChatGPT do meu time sem mais um vendor SDK para gerenciar. Documentação pública, AI System Card transparente, observability OpenTelemetry."
  • MCP padrão Anthropic com TypeScript SDK + Python SDK first-class em GitHub
  • SLO 99,95% e latência mediana menor que 80 milissegundos com SLA contratual
  • Webhooks idempotentes com retry exponencial e fila persistente
  • Observability OpenTelemetry-friendly (spans LLM, custo por call, cache hit rate)
  • Cache hit rate publicado semanalmente — meta maior que 70 por cento
  • OpenAPI 3.1 + JSON Schema versionado com deprecation policy de 6 meses
  • Sandbox gratuito self-serve por 30 dias antes de qualquer contrato
  • Documentação aberta com 20+ exemplos production-ready em GitHub
Conta-tipo:
Ticket ARR: R$ 600k-2 MM
P4 · SEGUROS
Underwriting Director seguradora
Diretor de Underwriting · CUO · CRO Seguros · Head of Pricing
Quando precifico apólice ou renovação "quero cruzar histórico financeiro + comportamental + geo-risco + sinistralidade em uma chamada, com explainability suficiente para SUSEP e LGPD Art. 11."
  • Cross-sinal multi-vertical (financeiro + saúde + comportamental + geo) em uma chamada
  • Healthtech-grade explainability para LGPD Art. 11 sensíveis + CRP + CFM
  • Income Stability Signal para vida e saúde (Q2/2027, sem violar EU AI Act)
  • Geo-risco granular via Munddi+ (CEP + mobilidade + sinistralidade local)
  • Pricing dinâmico com refresh diário (D-1) não mensal (D-30)
  • Detecção de fraude de seguro integrada ao MCP (Watchtower)
  • Coverage healthtech via marketplace de parceiros (Sami, Alice, Pipo)
Conta-tipo:
Ticket ARR: R$ 500k-1,5 MM
P5 · PROCUREMENT
Head of Procurement & Vendor Management
Head of Procurement · Chief Vendor Officer · Compliance de Fornecedores
Quando avalio alternativa Serasa "quero vendor brasileiro com AI System Card pública, LGPD documentada por endpoint, SOC 2 equivalente, cláusulas auditáveis e capacidade de reduzir concentração sem aumentar risco regulatório."
  • AI System Card pública obrigatória (modelo, dados de treino, retraining, bias audit)
  • LGPD compliance documentada por endpoint (base legal, retenção, direitos do titular)
  • SOC 2 Type II ou ISO 27001 equivalente
  • SLA contratual auditável (uptime, latência, breach notification)
  • Disclosure obrigatório de mudanças no modelo com 30 dias de antecedência
  • Cláusulas de saída sem multa abusiva (máximo 1 mês de fee em rescisão sem causa)
  • Procurement onboarding em menos de 14 dias (questionário + DPA + DPIA)
  • Capacidade de reduzir concentração com Serasa sem aumentar risco regulatório
Conta-tipo:
Ticket ARR: R$ 300-800k
Matriz cruzada produtos × personas.

AI System Card e MCP Server SDK são decisões cruzadas — Persona 5 (Procurement) bloqueia compra se AI System Card não existir; Persona 3 (CTO) bloqueia se MCP SDK não atender padrão Anthropic. Score Compliance via MCP é âncora primária da Persona 1. Operational Health Index PJ é âncora primária da Persona 2. Munddi+ é âncora primária da Persona 4. Income Stability Signal sustenta Persona 2 e Persona 4 no Q2/2027.

07 · Roadmap operacional

Cinco sprints com kill-switch em cada gate

Cada sprint termina em um gate binário. Sem aprovação no gate, a próxima fase não destrava budget. Pierre Schurmann (Nuvini) recebe relatório mensal; André Leão e Marcelo Modrow validam semanalmente. Datas absolutas, owners nomeados.

S1
01-jun a 05-jun-2026 · 5 dias úteis
Sprint 1 · Diagnóstico + alinhamento
Reunião kickoff com André Leão e Marcelo Modrow. Auditoria técnica WordPress completa. Baseline LLM mention rate medido (50 prompts × 5 LLMs). Inventário de URLs canônicas. Decisão ADR-002 sobre migração Next.js 16. Setup de ambiente staging.
Gate G1 · baseline aceito? owner André Leão + Brasil GEO
S2
08-jun a 26-jun-2026 · 15 dias úteis
Sprint 2 · Fundação semântica (3/10 → 9/10)
Wikidata Q-ID canônico Datahub Brasil + 6 Q-IDs de pessoas e produtos. JSON-LD enriquecido (Organization, Person × 4, Product × 3, FAQPage, DefinedTermSet, Speakable). llms.txt + llms-full.txt + agents.md + ai-policy.json + ai-agents.json + mcp.json placeholder. Sitemap multi-bucket com lastmod real. Feed.xml RSS auto-descoberto. Página de disambiguação Datahub Brasil vs DataHub Acryl Data. AI System Card v1.0 público.
Gate G2 · JSON-LD passa validators? owner Marcelo Modrow + Brasil GEO
S3
29-jun a 14-ago-2026 · 30 dias úteis
Sprint 3 · MCP Server Datahub v0.1
MCP Server público sobre Cloudflare Workers + Durable Objects, com endpoints search_company_by_cnpj, get_compliance_signals, get_operational_health_score e get_timeline_pj. Submissão a diretórios MCP da Anthropic, OpenAI e Microsoft Copilot. Observability OpenTelemetry. Cutover DNS WordPress → Next.js 16. Alinhamento técnico com Oracle (infra + tokens).
Gate G3 · MCP passa PoC em mid-bank? owner Modrow + Brasil GEO + Oracle
S4
17-ago a 30-nov-2026 · Q4/2026
Sprint 4 · Content engine + Datahub Decision Day
Quinze artigos HBR-grade em seis pilares editoriais. White paper Operational Health Index PJ com metodologia aberta. Cinco cases públicos com permissão explícita. Datahub Decision Day primeira edição (trimestral). Cobertura PR coordenada da parceria Oracle (NeoFeed, Bloomberg Línea, TI Inside).
Gate G4 · mention rate +30% vs baseline? owner CMO + Andrea + Brasil GEO
S5
Dez-2026 a Mai-2027 · Q1-Q2/2027
Sprint 5 · Score Compliance MCP enterprise + Income Stability Signal
Score Compliance MCP em pricing outcome-based (R$ 30-80 por alerta resolvido). Income Stability Signal reposicionado para lenders (fora do risco regulatório EU AI Act). Mensuração contínua e iteração. Audit IO2026 mensal automatizado. Apresentação de resultados anuais ao board Nuvini.
Gate G5 · ROI atinge meta? owner André Leão + Pierre Schurmann
08 · Stack tecnológica

Frontend + backend + MarTech + AI/LLM

Stack canônica documentada em vinte ADRs ativos. Cinco princípios invioláveis: GEO-first, edge antes de origem, TypeScript ponta-a-ponta, open standards antes de SaaS proprietário e acentuação PT-BR inviolável (Voice Guard bloqueia commits).

Frontend

Camadas 1 a 10
  • Meta-framework: Next.js 16 App Router
  • Linguagem: TypeScript 5.6+ strict · pnpm 9 · Node 22 LTS
  • UI: Tailwind CSS 4 · shadcn/ui · Radix UI · Motion · lucide-react
  • Estado: TanStack Query v5 · Zustand v5 · React Hook Form + Zod v3.23
  • Conteúdo: Sanity v3 (headless) · MDX · Shiki · Portable Text
  • SEO + GEO: schema-dts typed · next-sitemap · feed.xml · .well-known/*
  • Performance: web-vitals · Sentry · Plausible + GA4 · Microsoft Clarity

Backend

Edge + serviços Python
  • Edge: Cloudflare Workers + Pages + R2 + KV + Durable Objects + Queues + Cron + AI Gateway
  • Bancos: PostgreSQL 17 (Supabase/Neon) · Cloudflare D1 · ClickHouse Cloud · OpenSearch · Upstash Redis
  • ORM: Drizzle · drizzle-kit migrations
  • APIs: Server Actions Next 16 + Hono v4 + OpenAPI 3.1
  • MCP Server: @modelcontextprotocol/sdk oficial · OAuth2.1 · DO rate-limit
  • Python: 3.13 + FastAPI + uv + Polars + DuckDB + LightGBM
  • Workflows: Inngest v3 · Resend + Customer.io · Doppler secrets

MarTech para o CMO

Conectado ao Salesforce existente
  • CRM: Salesforce Sales Cloud (já implantado)
  • Marketing Hub: HubSpot Marketing Hub Pro
  • Outbound: Salesloft · 6sense ABM · LinkedIn Sales Navigator
  • Email: Resend (transactional) + Customer.io (marketing)
  • Analytics: Plausible + GA4 server-side + PostHog + Microsoft Clarity
  • SEO + GEO: Ahrefs · Semrush · suite Brasil GEO proprietária
  • Eventos: Livestorm · Sympla · Vimeo Pro

AI / LLM

Doze modelos canônicos roteáveis
  • Anthropic: Claude Opus 4.7 · Sonnet 4.6 · Haiku 4.5
  • OpenAI: GPT-5.5 · embeddings text-embedding-3-large
  • Google: Gemini 2.5 Pro · Flash
  • Pesquisa: Perplexity sonar-deep-research
  • Velocidade: Groq Llama 4 Scout · Groq Heavy gpt-oss-120b
  • X/Twitter live: Grok 4.3
  • Observability LLM: Langfuse v3 self-hosted + Promptfoo eval
  • Routing: geo-orchestrator Brasil GEO (12 modelos · 6 providers)
Orçamento mensal da stack tecnológica.

Infraestrutura R$ 4.618 · LLM e AI R$ 9.100 · Observabilidade R$ 2.690 · DevOps R$ 1.890 · MarTech R$ 29.440. Total R$ 47.738 por mês ou R$ 572.856 ao ano. O delta para o budget total de R$ 2,17 MM/ano é headcount, paid media e eventos próprios.

09 · KPIs primários

Como medimos o programa

Seis KPIs primários sustentam o gate de cada sprint. Cadência semanal para operação, mensal para o CMO e trimestral para o board da Nuvini.

KPI Baseline 26-mai-2026 Meta 6 meses Meta 12 meses Cadência
Score IO2026 3 de 10 9 de 10 10 de 10 mensal
LLM mention rate "KYC Brasil" a medir Sprint 1 40% 70% semanal
Acurácia de identidade Datahub em Gemini 0% ≥ 80% ≥ 95% semanal
MCP Server calls/mês 0 10k 100k diário (dashboard)
Lead origem LLM no Salesforce não rastreado 15% dos MQLs 25% dos MQLs mensal
Wikidata Q-ID claims richness sem Q-ID 15 claims 30 claims mensal
10 · Próximos passos

O que destrava o programa

Cinco decisões binárias e três marcos de aprovação separam a Datahub do Sprint 1 em produção. Brasil GEO entrega o kit técnico pronto; a Datahub aprova o orçamento e o acesso.

Decisões binárias pendentes

  • D1. Aprovar orçamento R$ 572.856/ano da stack tecnológica · owner Nuvini (Pierre Schurmann)
  • D2. AI System Card pública sim ou não · owner André Leão
  • D3. MCP Server como prioridade 1 ou 2 · owner André Leão + Pierre Schurmann
  • D4. Income Stability Signal go ou no-go (reposicionado para lenders) · owner André Leão + Andrea
  • D5. WordPress permanece ou migra para Next.js 16 · owner Marcelo Modrow

Marcos de aprovação

  • M1. Reunião kickoff com André Leão + Marcelo Modrow · esta semana
  • M2. Aprovação Nuvini do budget de stack · até 07-jun-2026
  • M3. Sprint 1 termina com baseline aceito · 05-jun-2026

Após M3, Sprint 2 destrava automaticamente sem nova rodada de aprovação — o gate G2 (15-jun) verifica entrega objetiva.

Próximo movimento Brasil GEO.

Marcar reunião kickoff com André Leão (Founder & CEO Datahub) e Marcelo Modrow (Tech) para alinhar escopo, orçamento e cronograma do Sprint 1. Entregáveis já prontos no repositório datahub-geo (38 documentos canônicos · ~145.000 palavras) e no Wiki público com 14 páginas (60 verbetes + 40 Q&A).