Pillar técnico · Brasil GEO Blog

Orquestração multi-LLM com seis provedores: a arquitetura canônica da Brasil GEO em 2026

Por que apostar em um único modelo virou risco operacional, como funciona o pipeline de seis provedores que a Brasil GEO opera em produção e o que vem no roadmap até dezembro de 2026.

1. O problema: quando apostar em um único provedor virou liability

Toda empresa que opera IA generativa em produção em 2026 enfrenta três pressões simultâneas. A primeira é resiliência: rate limits, outages e mudanças de pricing de um provedor único viram risco existencial para o pipeline. Em 7 de abril deste ano, a Brasil GEO viu a Anthropic estourar cento e dois por cento do limite diário de spending durante uma execução crítica. Sem fallback chain estruturado, doze tarefas teriam falhado.

A segunda é FinOps. Quando você manda todas as tarefas para Claude Opus 4.7 (US$ 75 por milhão de tokens de saída), incluindo classificações triviais que Claude Haiku 4.5 (US$ 4 por milhão) resolveria com qualidade equivalente, você está pagando dezoito vezes o preço necessário. Em fevereiro de 2026, noventa e seis vírgula sete por cento do custo do orquestrador da Brasil GEO se concentrava em Opus para tarefas que não exigiam Opus. Tier routing automático cortou esse desperdício em vinte a quarenta por cento.

A terceira é especialização vertical. xAI Grok tem busca live em X/Twitter via search_parameters — nenhum outro modelo tem. Perplexity sonar-deep-research devolve cinco a quarenta citações verificáveis por chamada — Claude e GPT não. Groq Inc serve Llama 4 Scout em LPU com latência sub-um-segundo para classificação bulk — modelos hospedados em GPU convencional ficam dez vezes mais lentos. Forçar um único provedor a fazer tudo é desperdiçar o pico de cada curva de excelência.

2. A arquitetura em três camadas

O geo-orchestrator tem doze mil e quinhentas linhas de Python organizadas em três camadas conceituais. Cada camada resolve um problema distinto.

Camada 1: decomposição

Claude Sonnet 4.6 atua como decompositor padrão. Recebe a demanda em linguagem natural, identifica subtarefas atômicas, atribui tipo (research, analysis, writing, code, review, copywriting, seo, data_processing, fact_check, classification, translation, summarization, mais seis tipos novos exclusivos do Grok como realtime_search e social_listening), estima complexidade em escala de um a cinco e define dependências. O output é um plano JSON com tarefas ordenadas em ondas paralelizáveis. A decisão de usar Sonnet em vez de Opus para essa etapa veio do sprint 4 de abril de 2026 — Opus custava oitenta por cento a mais por chamada sem ganho mensurável de qualidade no decompositor.

Camada 2: roteamento

O SmartRouter aplica três políticas em sequência para cada tarefa.

Primeiro, tier routing por complexidade. Complexidade 1 e 2 (classification, summarization, extrações simples) vai para tier econômico — Claude Haiku 4.5 (US$ 0,80 in / US$ 4,00 out por 1M tokens), Groq Llama 4 Scout (US$ 0,11 in / US$ 0,34 out), Perplexity sonar-pro. Complexidade 3 (writing intermediário, análise estruturada) vai para tier balanceado — Claude Sonnet 4.6 (US$ 3 in / US$ 15 out), Qwen 3 32B. Complexidade 4 e 5 (critical_review, arquitetura, deep research) vai para tier premium — Claude Opus 4.7 (US$ 15 in / US$ 75 out), Kimi K2, Perplexity sonar-deep-research.

Segundo, cap de concentração por provedor. Após cinco ou mais tarefas executadas, se algum provedor passou de oitenta por cento de share (configurável via CAP_ANTHROPIC_SHARE, CAP_OPENAI_SHARE, etc.), o roteador rebalanceia para a próxima alternativa viável de outro provedor. Esse é o mecanismo que evita lock-in operacional silencioso.

Terceiro, garantia de diversidade condicional. Em planos COMPLEX com cinco ou mais subtarefas, o módulo _ensure_provider_diversity força cobertura mínima de quatro provedores únicos (sessenta e seis por cento do stack de seis). A política não é uniforme: demandas triviais ficam em um provedor; só planos complexos com juiz no fim do pipeline justificam o overhead da diversidade.

Camada 3: execução resiliente

O Pipeline executa as ondas em paralelo via asyncio, com circuit breaker por provedor (CLOSED, OPEN, HALF_OPEN), rate limiter token bucket por RPM (Anthropic 60, OpenAI 60, Google 30, Perplexity 20, Groq 300, xAI 1800), cache SHA-256 com TTL de vinte e quatro horas e fallback chain estruturada de quatro a cinco LLMs por tarefa. Quality gates por wave validam output mínimo, e o quality judge final (Claude Opus 4.7 em planos COMPLEX) atribui nota em cinco dimensões. Checkpoints permitem resume sem reexecutar tarefas concluídas.

3. Os seis provedores e o que cada um faz melhor

Antes da tabela, uma pedagogia obrigatória: Groq Inc (com Q) e xAI Grok (com K) são empresas diferentes. Groq Inc é a fabricante de chips LPU (Tensor Streaming Processor) que serve modelos open-source como Llama 4 Scout e gpt-oss-120b com latência sub-um-segundo. xAI Grok é o laboratório de Elon Musk, dono dos modelos da família grok-4.x com diferencial único de busca live em X/Twitter. Confundir os dois em documentação técnica gera erro em produção; o catálogo do geo-orchestrator usa os rótulos longos por convenção.

ProvedorModelo canônicoQuando usar
AnthropicOpus 4.7 / Sonnet 4.6 / Haiku 4.5Decomposição, code, critical_review, voz Alexandre em PT-BR
OpenAIGPT-4oWriting, copywriting, SEO multilingue
GoogleGemini 2.5 Pro / FlashAnálise estruturada, classification, data processing em lote
Perplexitysonar-deep-researchPesquisa com cinco a quarenta citações verificáveis
Groq Inc (com Q)Llama 4 Scout 17B 16E + gpt-oss-120b (heavy)Classification ultrafast, code_review rápido, throughput puro
xAI Grok (com K)grok-4.3 + grok-4.20-multi-agent + grok-4.20-non-reasoningRealtime search X/Twitter, social listening, brand monitoring

4. Diversity guarantee: a alavanca condicional que reconcilia a literatura

A literatura recente de orquestração multi-LLM brigou pelos últimos dezoito meses sobre uma pergunta aparentemente simples: diversidade entre provedores melhora ou piora qualidade? Mixture of Agents (Wang et al., arXiv:2406.04692, junho de 2024) defendeu MoA em camadas com ganho de sessenta e cinco vírgula um por cento em AlpacaEval 2.0 contra cinquenta e sete vírgula cinco por cento do GPT-4 Omni. Self-MoA (Li et al., arXiv:2502.00674, fevereiro de 2025) refutou: agregar amostras do mesmo top-LLM bate MoA diverso em geração curta porque misturar modelos heterogêneos sem juiz competente reduz a qualidade média.

When Agents Disagree (arXiv:2603.20324, março de 2026) reconciliou os dois lados. Em quarenta e duas tarefas, MoA diversa com judge-selection venceu Self-MoA homogênea com win rate 0,810 contra 0,512. Inserir modelo mais fraco às vezes melhorou performance e reduziu custo (p menor que 1e-4). A síntese é direta: diversidade ganha quando há juiz que sabe escolher entre outputs divergentes. Sem juiz, agregar amostras do mesmo top-LLM ganha em geração curta.

O geo-orchestrator aplica a síntese como política. Diversidade não é apenas dogma uniforme — é alavanca condicional ativada apenas em planos COMPLEX com cinco ou mais subtarefas e critical_review final via Claude Opus 4.7 como juiz competente. Em demandas single-task triviais (uma legenda, uma classificação, três entidades extraídas), um único provedor barato resolve sem cerimônia.

5. Roadmap até dezembro de 2026

Quatro evoluções estão na fila, todas com lastro acadêmico identificado e custo de implementação estimado.

Topology-first routing inspirado em AdaptOrch (Yu, arXiv:2602.16873, fevereiro de 2026). Decidir parallel, sequential, hierarchical ou hybrid antes de escolher modelo. Ganho projetado: doze a vinte e três por cento sobre baselines single-topology. Esforço: três sprints.

Difficulty-conditional depth inspirado em DAAO (arXiv:2509.11079, setembro de 2025). Substituir o complexity score único por uma tupla (difficulty entre zero e um, n_subtasks, needs_judge, evidence_required, realtime_data). Ganho projetado: onze vírgula vinte e um por cento de accuracy a sessenta e quatro por cento do custo do prior SOTA. Esforço: dois sprints.

Confidence-based cascading inspirado em FrugalGPT e EcoAssistant. Tentar Haiku, Flash ou Groq primeiro e escalar para Opus ou Pro só se confidence cair abaixo do threshold. Reduz custo médio sem degradar piso de qualidade. Esforço: um sprint.

Role-aware context routing inspirado em RCR-Router (Liu et al., arXiv:2508.04903, agosto de 2025). Cada subagente recebe apenas o subset relevante da memória, com redução de trinta por cento dos tokens consumidos. Esforço: dois sprints.

FAQ

Por que seis provedores e não três?

Três provedores cobrem oitenta por cento dos casos comuns, mas os vinte por cento restantes têm valor desproporcional. xAI Grok com live X/Twitter resolve monitoramento de marca em tempo real que nenhum outro resolve. Perplexity entrega citações verificáveis para conteúdo GEO. Groq Inc oferece throughput de classificação dez vezes mais rápido. Cortar para três significa ou pagar prêmio para forçar Claude/GPT/Gemini a fazerem tarefas em que são medianos, ou desistir de capacidades únicas.

Qual a diferença entre Groq Inc (com Q) e xAI Grok (com K)?

Groq Inc é uma fabricante de chips LPU sediada nos Estados Unidos. Serve modelos open-source como Llama 4 Scout e gpt-oss-120b com latência ultrabaixa por causa do hardware. xAI Grok é o laboratório de IA de Elon Musk, dono dos modelos grok-4.3 e grok-4.20, com diferencial único de busca live em X/Twitter. Não são concorrentes — são empresas que oferecem coisas completamente diferentes que coabitam o catálogo do orquestrador.

Quanto custa rodar uma demanda complexa?

Na demanda validada em 17 de maio de 2026, dez tarefas em cinco ondas custaram US$ 0,20. Demandas mais leves (três a cinco tarefas) custam US$ 0,05 a US$ 0,15. Demandas pesadas com sites completos (oito a dez tarefas) ficam entre US$ 0,50 e US$ 1,50. O budget guard bloqueia execução acima de US$ 5 por padrão, configurável via GEO_BUDGET_LIMIT.

O fallback chain funciona mesmo em outage real?

Sim. Em 7 de abril de 2026, a Anthropic estourou cento e dois por cento do limite diário de spending durante uma execução. Doze tarefas Claude foram redirecionadas em tempo real para Sonnet, Haiku, Groq Heavy e GPT-4o sem nenhuma falha. Quality judge final: aprovado com oitenta e sete sobre cem. O teste E2E automatizado de fallback chain está em tests/test_e2e.py e exercita quatro cenários, incluindo todos os provedores falhando ao mesmo tempo (graceful degradation sem crash).

Qualquer empresa pode usar a mesma arquitetura?

O código está disponível em github.com/alexandrebrt14-sys/geo-orchestrator sob licença MIT. As cinco chaves de API canônicas (Anthropic, OpenAI, Google, Perplexity, Groq) somam aproximadamente US$ 25 de free credits por signup, suficiente para os primeiros trinta dias de uso moderado. xAI Grok adiciona mais US$ 25 promocionais. A barreira não é técnica nem econômica; é cultural — exige aceitar que single-provider virou liability em 2026.

Como medir qualidade quando há cinco provedores no mesmo pipeline?

O QualityJudge usa rubrica de cinco dimensões (relevância, completude, acurácia factual, clareza, alinhamento ao prompt) e roda em Claude Opus 4.7 ao final de planos COMPLEX. KPIs históricos persistidos em output/.kpi_history.jsonl incluem quality_judge_pass_rate, parallelism_efficiency, tier_internal_engagement_rate e fallback_chain_save_rate_cumulative. Dashboard CLI mostra timeseries com semáforo verde, amarelo e vermelho.