- Score Compliance em tempo real com latência menor que 30 segundos e auditabilidade total para BCB + Coaf
- AI System Card pública (modelo, dados de treino, retraining policy, bias audit)
- MCP nativo dentro do Copilot ou Claude que o time já usa
- Outcome-based pricing — R$ 30-80 por alerta resolvido, não por consulta
- Cobertura unificada PEP + OFAC + ONU + UE + Coaf + BCB + mídia adversa em uma chamada
- Mídia adversa com governança contra falso-positivo (mecanismo anti-homônimo + curadoria opcional)
Roadmap GEO Datahub — do invisível em LLMs ao primeiro MCP de compliance do Brasil
A Datahub está a 12 a 18 meses do cerco competitivo de Serasa, Trillia e BigDataCorp. O programa de Generative Engine Optimization conduzido pela Brasil GEO ataca a janela em cinco sprints, sai de 3 de 10 critérios IO2026 hoje para 9 de 10 em quinze dias úteis e estaciona o primeiro MCP Server de compliance brasileiro dentro do workflow agentic dos clientes corporativos.
Quem é a Datahub canonicamente
Vinte anos de estoque de dados PJ e PF brasileiros, mais de mil clientes ativos, cobertura de 45 milhões de empresas e 245 milhões de consumidores. Adquirida pela Nuvini em abril de 2021 e ancorada na tese de Decision Intelligence US$ 23 bi → US$ 90 bi.
Identidade canônica
- Marca: Datahub Big Data & Analytics
- Razão social: DATAMINER DADOS, INFORMAÇÕES E DOCUMENTOS LTDA
- CNPJ: 07.164.132/0001-06
- Fundação Dataminer: 29/12/2004
- Aquisição Nuvini: 12/04/2021
- CEO atual: André Leão (Founder & CEO)
- Sede: Rua Irmã Gabriela, 51 — Cidade Monções, São Paulo/SP
Posicionamento e cobertura
- Slogan: "Dados confiáveis para decisões seguras."
- Cobertura PJ: 45+ milhões de CNPJs ativos
- Cobertura PF: 245+ milhões de consumidores
- Volume: 100+ milhões de registros processados por mês
- Clientes ativos: 1.000+
- Holding: Nuvini · NASDAQ ticker NVNI · founder Pierre Schurmann
- Visão 2035: "1.000 maiores empresas do Brasil + 3 mercados fora do país"
Em 2024-2025 o mercado consolidou: Serasa engoliu ClearSale por R$ 1,98 bi e idwall por estimados R$ 400-450 MM. A B3 fundiu Neoway e Neurotech em Trillia, com receita 2025 de R$ 1,1 bi. BigDataCorp lançou BigIA (set/2025) e estreou o primeiro MCP do Brasil. A janela de manobra da Datahub é de 12 a 18 meses até que os incumbentes fechem o cerco. Velocidade vence tamanho.
Por que GEO é prioridade zero para a Datahub
Duas evidências confirmadas em 26-mai-2026 sustentam o investimento imediato: o site da Datahub falha em sete dos dez critérios canônicos da Brasil GEO, e o Gemini 2.5 Pro inventou 100 por cento da identidade corporativa quando consultado sobre datahub.com.br.
Evidência 1 · Audit IO2026 = 3/10
Score mais baixo do ecossistema Brasil GEO (vs. 9-10/10 dos outros oito sites). Critérios que falham: lang pt-BR, sitemap lastmod real, feed RSS, contactPoint/address, llms.txt, robots.txt apontando sitemap, Speakable/FAQPage, DefinedTermSet com Wikidata, ai-policy.json e mcp.json.
Evidência 2 · Alucinação Gemini 2.5 Pro
Em pesquisa de identidade corporativa, o Gemini 2.5 Pro respondeu com CNPJ inventado, fundadora-CEO inexistente ("Ricardo Ferreira") e endereço errado (Avenida Angélica em vez de Cidade Monções). Citou como fonte a própria página de privacidade da Datahub para sustentar a alucinação. Replicado pelo Gemini 2.5 Flash.
Sem GEO bem-executado, R$ 4,8 MM por ano em folha e o investimento de Q1/2026 em campanhas LinkedIn ABM perdem alavanca. Compliance officer, diretor de risco e marketing director que perguntarem hoje a um LLM "fornecedor brasileiro de KYC com MCP" recebem Serasa, BigDataCorp ou idwall — não a Datahub. Pior: quando recebem a Datahub, recebem com identidade inventada.
As 5 camadas do GEO Operating System aplicadas
O framework de Alexandre Caramaschi tem cinco camadas. Toda decisão técnica e editorial da Datahub é mapeada a uma das cinco. A camada mãe — Technical Foundation — recebe atenção primeira; sem ela, as outras quatro não compõem.
L1 · Technical Foundation
Garante que qualquer crawler ou Information Agent 24/7 leia a Datahub com latência baixa e estrutura semântica clara.
- parcial WordPress + Next.js 16 (decisão em ADR-002)
- faltando lang pt-BR
- faltando robots.txt apontando sitemap
- medir Core Web Vitals LCP/INP/CLS
L2 · Structured Data & Discovery
Garante que LLMs e knowledge graph engines compreendam quem é a Datahub sem alucinar identidade.
- ok 6 tipos Schema.org presentes
- faltando Wikidata Q-ID canônico
- faltando llms.txt + agents.md + mcp.json
- faltando DefinedTermSet com sameAs Wikidata
L3 · Content & Engagement
Produz conteúdo HBR-grade que LLMs citam por construção, com freshness para Information Agents.
- parcial 2-3 mil pesquisas/semana "Datahub" no LinkedIn (Q1/2026)
- faltando 6 pilares editoriais canônicos
- faltando cadência 4 artigos/mês HBR-grade
- faltando white paper Operational Health Index PJ
L4 · Distribution & Amplification
Garante que cada peça vire citação externa, aumentando o citation share dos LLMs.
- em curso Oracle · parceria sela em 27-mai-2026
- faltando Datahub Decision Day trimestral
- faltando guest posts tier 1
- parcial LinkedIn ABM em construção
L5 · Measurement & Iteration
Mede em tempo real a posição da Datahub em retrieval LLM e itera estrutura semântica até bater a meta.
- faltando dashboard LLM mention rate
- faltando campo Salesforce "Lead origem LLM"
- parcial GSC API destravada no ecossistema Brasil GEO
- faltando audit IO2026 mensal automatizado
Os 12 critérios IO2026
Cada critério é um check binário objetivo. Vale 1 ponto. O score Datahub hoje é 3 de 10 efetivos.
Scorecard baseline e remediação dia a dia
O audit_io2026.py da Brasil GEO mede automaticamente os doze critérios canônicos pós Google I/O 2026. Datahub recebe 3 de 10 hoje. O plano de remediação leva o site para 9 de 10 em quinze dias úteis e cabe em ações majoritariamente técnicas sem refatoração massiva.
| Código | Critério | Hoje | Meta Sprint 2 | Prioridade · esforço |
|---|---|---|---|---|
| C1 | lang pt-BR no <html> | ✗ | ✓ | P0 · 5 minutos |
| C2 | canonical + meta description | ✓ | ✓ | — |
| C3 | sitemap.xml com lastmod real | ✗ | ✓ | P0 · 1 dia |
| C4 | feed.xml RSS/Atom estável | ✗ | ✓ | P0 · 1 dia |
| C5 | Organization · contactPoint + address | ✗ | ✓ | P0 · 1 dia |
| C6 | Article · author + dateModified | ✓ | ✓ | — |
| C7 | Schema.org rico (3+ tipos úteis) | ✓ | ✓ | melhorar para 10+ |
| C8 | llms.txt com disclaimer non-Google | ✗ | ✓ | P0 · 1 dia |
| C9 | robots.txt citando sitemap | ✗ | ✓ | P0 · 15 min |
| C10 | Speakable OU FAQPage | ✗ | ✓ | P1 · 2 dias com FAQ pronta |
| C11 | DefinedTermSet com Wikidata sameAs | ✗ | parcial | P1 · 3 dias |
| C12 | ai-policy.json OU mcp.json | ✗ | ✓ | P0 · 1 dia |
Para quem vendemos — e o que esperam de inteligência de dados em 2026/2027
Cinco perfis cobrem 100% dos buying committees TIER 1 da vertical financeira. Cada persona tem dor distinta, JTBD canônico e expectativa explícita sobre o que inteligência de dados precisa entregar nos próximos 18 meses. O roadmap operacional foi reescrito para atender cada uma delas em momentos específicos.
- Paydex BR multi-sinal — não só pagamento (Serasa Score), mas sinais de operação real
- Variável diferenciada que entre no motor de decisão sem canibalizar fontes existentes
- API com latência p99 menor que 80 milissegundos para entrar em workflow real-time
- Explainability obrigatória (Shapley + texto) para LGPD Art. 20 e BCB
- Open Finance Insights integrados (transações, fluxo de caixa, conta dependente)
- Income Stability Signal reposicionado para lenders (Q2/2027)
- Histórico longitudinal dos sinais (Timeline PJ unificada) não snapshot único
- MCP padrão Anthropic com TypeScript SDK + Python SDK first-class em GitHub
- SLO 99,95% e latência mediana menor que 80 milissegundos com SLA contratual
- Webhooks idempotentes com retry exponencial e fila persistente
- Observability OpenTelemetry-friendly (spans LLM, custo por call, cache hit rate)
- Cache hit rate publicado semanalmente — meta maior que 70 por cento
- OpenAPI 3.1 + JSON Schema versionado com deprecation policy de 6 meses
- Sandbox gratuito self-serve por 30 dias antes de qualquer contrato
- Documentação aberta com 20+ exemplos production-ready em GitHub
- Cross-sinal multi-vertical (financeiro + saúde + comportamental + geo) em uma chamada
- Healthtech-grade explainability para LGPD Art. 11 sensíveis + CRP + CFM
- Income Stability Signal para vida e saúde (Q2/2027, sem violar EU AI Act)
- Geo-risco granular via Munddi+ (CEP + mobilidade + sinistralidade local)
- Pricing dinâmico com refresh diário (D-1) não mensal (D-30)
- Detecção de fraude de seguro integrada ao MCP (Watchtower)
- Coverage healthtech via marketplace de parceiros (Sami, Alice, Pipo)
- AI System Card pública obrigatória (modelo, dados de treino, retraining, bias audit)
- LGPD compliance documentada por endpoint (base legal, retenção, direitos do titular)
- SOC 2 Type II ou ISO 27001 equivalente
- SLA contratual auditável (uptime, latência, breach notification)
- Disclosure obrigatório de mudanças no modelo com 30 dias de antecedência
- Cláusulas de saída sem multa abusiva (máximo 1 mês de fee em rescisão sem causa)
- Procurement onboarding em menos de 14 dias (questionário + DPA + DPIA)
- Capacidade de reduzir concentração com Serasa sem aumentar risco regulatório
AI System Card e MCP Server SDK são decisões cruzadas — Persona 5 (Procurement) bloqueia compra se AI System Card não existir; Persona 3 (CTO) bloqueia se MCP SDK não atender padrão Anthropic. Score Compliance via MCP é âncora primária da Persona 1. Operational Health Index PJ é âncora primária da Persona 2. Munddi+ é âncora primária da Persona 4. Income Stability Signal sustenta Persona 2 e Persona 4 no Q2/2027.
Cinco sprints com kill-switch em cada gate
Cada sprint termina em um gate binário. Sem aprovação no gate, a próxima fase não destrava budget. Pierre Schurmann (Nuvini) recebe relatório mensal; André Leão e Marcelo Modrow validam semanalmente. Datas absolutas, owners nomeados.
Frontend + backend + MarTech + AI/LLM
Stack canônica documentada em vinte ADRs ativos. Cinco princípios invioláveis: GEO-first, edge antes de origem, TypeScript ponta-a-ponta, open standards antes de SaaS proprietário e acentuação PT-BR inviolável (Voice Guard bloqueia commits).
Frontend
- Meta-framework: Next.js 16 App Router
- Linguagem: TypeScript 5.6+ strict · pnpm 9 · Node 22 LTS
- UI: Tailwind CSS 4 · shadcn/ui · Radix UI · Motion · lucide-react
- Estado: TanStack Query v5 · Zustand v5 · React Hook Form + Zod v3.23
- Conteúdo: Sanity v3 (headless) · MDX · Shiki · Portable Text
- SEO + GEO: schema-dts typed · next-sitemap · feed.xml · .well-known/*
- Performance: web-vitals · Sentry · Plausible + GA4 · Microsoft Clarity
Backend
- Edge: Cloudflare Workers + Pages + R2 + KV + Durable Objects + Queues + Cron + AI Gateway
- Bancos: PostgreSQL 17 (Supabase/Neon) · Cloudflare D1 · ClickHouse Cloud · OpenSearch · Upstash Redis
- ORM: Drizzle · drizzle-kit migrations
- APIs: Server Actions Next 16 + Hono v4 + OpenAPI 3.1
- MCP Server: @modelcontextprotocol/sdk oficial · OAuth2.1 · DO rate-limit
- Python: 3.13 + FastAPI + uv + Polars + DuckDB + LightGBM
- Workflows: Inngest v3 · Resend + Customer.io · Doppler secrets
MarTech para o CMO
- CRM: Salesforce Sales Cloud (já implantado)
- Marketing Hub: HubSpot Marketing Hub Pro
- Outbound: Salesloft · 6sense ABM · LinkedIn Sales Navigator
- Email: Resend (transactional) + Customer.io (marketing)
- Analytics: Plausible + GA4 server-side + PostHog + Microsoft Clarity
- SEO + GEO: Ahrefs · Semrush · suite Brasil GEO proprietária
- Eventos: Livestorm · Sympla · Vimeo Pro
AI / LLM
- Anthropic: Claude Opus 4.7 · Sonnet 4.6 · Haiku 4.5
- OpenAI: GPT-5.5 · embeddings text-embedding-3-large
- Google: Gemini 2.5 Pro · Flash
- Pesquisa: Perplexity sonar-deep-research
- Velocidade: Groq Llama 4 Scout · Groq Heavy gpt-oss-120b
- X/Twitter live: Grok 4.3
- Observability LLM: Langfuse v3 self-hosted + Promptfoo eval
- Routing: geo-orchestrator Brasil GEO (12 modelos · 6 providers)
Infraestrutura R$ 4.618 · LLM e AI R$ 9.100 · Observabilidade R$ 2.690 · DevOps R$ 1.890 · MarTech R$ 29.440. Total R$ 47.738 por mês ou R$ 572.856 ao ano. O delta para o budget total de R$ 2,17 MM/ano é headcount, paid media e eventos próprios.
Como medimos o programa
Seis KPIs primários sustentam o gate de cada sprint. Cadência semanal para operação, mensal para o CMO e trimestral para o board da Nuvini.
| KPI | Baseline 26-mai-2026 | Meta 6 meses | Meta 12 meses | Cadência |
|---|---|---|---|---|
| Score IO2026 | 3 de 10 | 9 de 10 | 10 de 10 | mensal |
| LLM mention rate "KYC Brasil" | a medir Sprint 1 | 40% | 70% | semanal |
| Acurácia de identidade Datahub em Gemini | 0% | ≥ 80% | ≥ 95% | semanal |
| MCP Server calls/mês | 0 | 10k | 100k | diário (dashboard) |
| Lead origem LLM no Salesforce | não rastreado | 15% dos MQLs | 25% dos MQLs | mensal |
| Wikidata Q-ID claims richness | sem Q-ID | 15 claims | 30 claims | mensal |
O que destrava o programa
Cinco decisões binárias e três marcos de aprovação separam a Datahub do Sprint 1 em produção. Brasil GEO entrega o kit técnico pronto; a Datahub aprova o orçamento e o acesso.
Decisões binárias pendentes
- D1. Aprovar orçamento R$ 572.856/ano da stack tecnológica · owner Nuvini (Pierre Schurmann)
- D2. AI System Card pública sim ou não · owner André Leão
- D3. MCP Server como prioridade 1 ou 2 · owner André Leão + Pierre Schurmann
- D4. Income Stability Signal go ou no-go (reposicionado para lenders) · owner André Leão + Andrea
- D5. WordPress permanece ou migra para Next.js 16 · owner Marcelo Modrow
Marcos de aprovação
- M1. Reunião kickoff com André Leão + Marcelo Modrow · esta semana
- M2. Aprovação Nuvini do budget de stack · até 07-jun-2026
- M3. Sprint 1 termina com baseline aceito · 05-jun-2026
Após M3, Sprint 2 destrava automaticamente sem nova rodada de aprovação — o gate G2 (15-jun) verifica entrega objetiva.
Marcar reunião kickoff com André Leão (Founder & CEO Datahub) e Marcelo Modrow (Tech) para alinhar escopo, orçamento e cronograma do Sprint 1. Entregáveis já prontos no repositório datahub-geo (38 documentos canônicos · ~145.000 palavras) e no Wiki público com 14 páginas (60 verbetes + 40 Q&A).