Quando Regex
Ganha de um LLM

Voce nao precisa de um modelo de 70B pra saber que "shall" significa obrigatorio.

Uma tarefa de classificacao de documentos: dado um trecho da Especificacao de Transporte do MCP, determine quais partes sao requisitos obrigatorios, quais sao riscos de seguranca e quais sao preenchimento informativo que seu agente pode pular.

Um LLM faz isso. Voce pode pedir pro Claude ou GPT-4 ler o texto e classificar cada secao. Vai levar 2-10 segundos, custar $0,003-0,02 por chamada, e dar respostas levemente diferentes toda vez que rodar.

Ou voce pode fazer com regex em 3,78 milissegundos. Deterministicamente. Offline. De graca.

E isso que o Decompose faz. E uma biblioteca Python que divide texto em unidades semanticas classificadas — sem LLM, sem chave de API, sem GPU. Uma chamada de funcao. Aqui esta a saida completa do processamento da spec de transporte do MCP:

A entrada

1.786 caracteres de texto de especificacao. Cinco secoes cobrindo transportes, um aviso de seguranca, stdio, SSE (deprecado), streamable HTTP e requisitos de seguranca. O tipo de documento que toda implementacao MCP precisa ler com cuidado.

# Duas linhas de Python from decompose import decompose result = decompose(spec_text) # 3,78ms

A saida

9 unidades. Cada uma tem nivel de autoridade, categoria de risco, score de atencao e flag de acionabilidade. Nenhum LLM foi consultado. Aqui estao as tres que importam:

Unidade 2 — Aviso de Seguranca
authority: directive risk: security attention: 2.2 actionable: true "Implementations SHOULD be cautious about exposing MCP servers via SSE to untrusted networks..." → SHOULD = autoridade diretiva. "untrusted networks" = risco de seguranca. Atencao: 2.2
Unidade 9 — Requisitos de Seguranca
authority: mandatory risk: security attention: 3.0 actionable: true "All implementations MUST: - Use HTTPS for non-local connections - Validate Origin headers on all requests - Implement proper session management - Follow OAuth 2.1 for authentication" → MUST = autoridade obrigatoria. Risco de seguranca + obrigatorio = atencao 3.0 Esta e a unidade que seu agente le primeiro.

E as unidades que nao importam:

Unidade 1 — Transports (visao geral) authority: mandatory risk: informational attention: 0.3 → "must handle message framing" — boilerplate Unidade 3 — Standard Input/Output (stdio) authority: informational risk: informational attention: 0.0 → descricao, sem obrigacoes, pular Unidade 7 — Streamable HTTP authority: informational risk: informational attention: 0.0 → mesma coisa — so descricao, pular Unidade 8 — Request-Response Flow authority: permissive risk: informational attention: 0.1 → "server MAY send multiple messages" — bom saber

Um agente usando esses scores leria 2 de 9 unidades. Saberia que os requisitos de seguranca sao obrigatorios (MUST) e o aviso de seguranca e consultivo (SHOULD). Pularia a visao geral, a descricao do stdio e o aviso de deprecacao do SSE. Economizaria 78% da janela de contexto so nesse documento.

Como funciona

Sem magica. A classificacao roda em tres coisas:

1. Deteccao de palavras-chave RFC 2119

"MUST", "SHALL", "MUST NOT" → mandatory ou prohibitive. "SHOULD", "RECOMMENDED" → directive. "MAY" → permissive. Sem palavras-chave → informational.

Isso nao e opiniao. E o padrao real. A RFC 2119 foi escrita em 1997 especificamente pra tornar essas palavras inequivocas em especificacoes. Um LLM tem que descobrir isso a partir dos dados de treinamento. Regex so faz match na palavra.

2. Padroes de categoria de risco

Palavras como "attack", "untrusted", "authentication", "HTTPS" → security. Valores em dolar e termos financeiros → financial. "OSHA", "safety-critical", "load-bearing" → safety-critical. "compliance", "violation", "regulation" → compliance.

Esses padroes sao deterministicos. Nao variam entre execucoes. Nao alucinam risco onde nao existe.

3. Scoring de atencao

Uma formula simples: peso de autoridade × multiplicador de risco. Obrigatorio + seguranca = score alto. Informativo + informativo = 0.0. Os numeros nao sao arbitrarios — sao calibrados pra colocar conteudo genuinamente critico no topo da lista de leitura.

E isso. Tres sistemas de regex, um splitter de Markdown com reconhecimento de headers e uma calculadora de atencao. Total de codigo: ~2.000 linhas de Python. Dependencias externas: zero.

Quando isso realmente ganha de um LLM?

Nem sempre. Vou ser especifico sobre os tradeoffs.

Regex ganha quando:

LLMs ganham quando:

O insight e que nao sao mutuamente exclusivos. Decompose roda antes do seu LLM. E um pre-processador. Seu agente le 9 unidades de metadata em vez de 1.786 caracteres de texto cru. Decide quais 2 unidades mandar pro modelo pra analise mais profunda. O LLM ainda faz o trabalho dificil — so faz menos trabalho facil.

A conta do custo

Digamos que voce tem 10.000 documentos de especificacao. Media de 5.000 caracteres cada.

# Classificacao por LLM (Claude Sonnet, est.) 10.000 docs × ~2.000 tokens de input × $3/M = $60 input 10.000 docs × ~500 tokens de output × $15/M = $75 output Total: ~$135 Tempo: ~10.000 × 3s = 8,3 horas (sequencial) # Decompose 10.000 docs × 14ms = 2,3 minutos Custo: $0

Depois do decompose, seu agente talvez mande 20% das unidades pro LLM pra analise mais profunda. Agora seu custo de LLM e $27 em vez de $135, e o modelo recebe texto pre-classificado e estruturalmente anotado em vez de blobs crus.

Teste voce mesmo

pip install decompose-mcp # Processar qualquer documento from decompose import decompose result = decompose(open("spec.md").read()) for unit in result["units"]: if unit["attention"] > 1.0: print(f"{unit['heading']}: {unit['authority']} / {unit['risk']} / {unit['attention']}") # Ou pipe pelo CLI cat spec.md | python -m decompose --compact # Ou rode como ferramenta MCP pro seu agente python -m decompose --serve

Cada unidade retorna com: authority, risk, attention, actionable, irreducible, entities, dates, financial, heading_path. Sem chave de API. Sem setup. Roda num Raspberry Pi.

O que estamos construindo

Decompose e o primitivo open-source. AECai e o produto — uma plataforma local-first de inteligencia documental para empresas de Arquitetura, Engenharia e Construcao. Usa Decompose como camada de chunking e classificacao, depois adiciona verificacao contra normas tecnicas, referencia cruzada contra padroes jurisdicionais e busca vetorial em todo o acervo do projeto.

Ambos sao construidos pela Echology. Ambos rodam no seu hardware. Nenhum dado sai pra nuvem de ninguem.

Se voce esta construindo agentes que leem documentos, vamos conversar. Se quer ver o que o Decompose encontra nos seus documentos, manda pra gente.