Uma tarefa de classificacao de documentos: dado um trecho da Especificacao de Transporte do MCP, determine quais partes sao requisitos obrigatorios, quais sao riscos de seguranca e quais sao preenchimento informativo que seu agente pode pular.
Um LLM faz isso. Voce pode pedir pro Claude ou GPT-4 ler o texto e classificar cada secao. Vai levar 2-10 segundos, custar $0,003-0,02 por chamada, e dar respostas levemente diferentes toda vez que rodar.
Ou voce pode fazer com regex em 3,78 milissegundos. Deterministicamente. Offline. De graca.
E isso que o Decompose faz. E uma biblioteca Python que divide texto em unidades semanticas classificadas — sem LLM, sem chave de API, sem GPU. Uma chamada de funcao. Aqui esta a saida completa do processamento da spec de transporte do MCP:
A entrada
1.786 caracteres de texto de especificacao. Cinco secoes cobrindo transportes, um aviso de seguranca, stdio, SSE (deprecado), streamable HTTP e requisitos de seguranca. O tipo de documento que toda implementacao MCP precisa ler com cuidado.
A saida
9 unidades. Cada uma tem nivel de autoridade, categoria de risco, score de atencao e flag de acionabilidade. Nenhum LLM foi consultado. Aqui estao as tres que importam:
E as unidades que nao importam:
Um agente usando esses scores leria 2 de 9 unidades. Saberia que os requisitos de seguranca sao obrigatorios (MUST) e o aviso de seguranca e consultivo (SHOULD). Pularia a visao geral, a descricao do stdio e o aviso de deprecacao do SSE. Economizaria 78% da janela de contexto so nesse documento.
Como funciona
Sem magica. A classificacao roda em tres coisas:
1. Deteccao de palavras-chave RFC 2119
"MUST", "SHALL", "MUST NOT" → mandatory ou prohibitive. "SHOULD", "RECOMMENDED" → directive. "MAY" → permissive. Sem palavras-chave → informational.
Isso nao e opiniao. E o padrao real. A RFC 2119 foi escrita em 1997 especificamente pra tornar essas palavras inequivocas em especificacoes. Um LLM tem que descobrir isso a partir dos dados de treinamento. Regex so faz match na palavra.
2. Padroes de categoria de risco
Palavras como "attack", "untrusted", "authentication", "HTTPS" → security. Valores em dolar e termos financeiros → financial. "OSHA", "safety-critical", "load-bearing" → safety-critical. "compliance", "violation", "regulation" → compliance.
Esses padroes sao deterministicos. Nao variam entre execucoes. Nao alucinam risco onde nao existe.
3. Scoring de atencao
Uma formula simples: peso de autoridade × multiplicador de risco. Obrigatorio + seguranca = score alto. Informativo + informativo = 0.0. Os numeros nao sao arbitrarios — sao calibrados pra colocar conteudo genuinamente critico no topo da lista de leitura.
E isso. Tres sistemas de regex, um splitter de Markdown com reconhecimento de headers e uma calculadora de atencao. Total de codigo: ~2.000 linhas de Python. Dependencias externas: zero.
Quando isso realmente ganha de um LLM?
Nem sempre. Vou ser especifico sobre os tradeoffs.
Regex ganha quando:
- Voce precisa de classificacao consistente e reproduzivel entre documentos
- Voce esta pre-processando centenas ou milhares de documentos antes de mandarem pro modelo
- Voce esta rodando local / air-gapped / controlado por ITAR
- Voce precisa de uma trilha de auditoria que explique exatamente por que uma secao foi marcada
- Voce nao pode gastar $0,01 por documento em escala
- Voce precisa da resposta em 4ms, nao em 4 segundos
LLMs ganham quando:
- Voce precisa entender nuance, implicacao ou raciocinio entre documentos
- O documento usa linguagem de dominio especifico que nao casa com padroes standard
- Voce esta classificando intencao, nao estrutura
- Voce tem um documento, nao mil
O insight e que nao sao mutuamente exclusivos. Decompose roda antes do seu LLM. E um pre-processador. Seu agente le 9 unidades de metadata em vez de 1.786 caracteres de texto cru. Decide quais 2 unidades mandar pro modelo pra analise mais profunda. O LLM ainda faz o trabalho dificil — so faz menos trabalho facil.
A conta do custo
Digamos que voce tem 10.000 documentos de especificacao. Media de 5.000 caracteres cada.
Depois do decompose, seu agente talvez mande 20% das unidades pro LLM pra analise mais profunda. Agora seu custo de LLM e $27 em vez de $135, e o modelo recebe texto pre-classificado e estruturalmente anotado em vez de blobs crus.
Teste voce mesmo
Cada unidade retorna com: authority, risk, attention, actionable, irreducible, entities, dates, financial, heading_path. Sem chave de API. Sem setup. Roda num Raspberry Pi.
O que estamos construindo
Decompose e o primitivo open-source. AECai e o produto — uma plataforma local-first de inteligencia documental para empresas de Arquitetura, Engenharia e Construcao. Usa Decompose como camada de chunking e classificacao, depois adiciona verificacao contra normas tecnicas, referencia cruzada contra padroes jurisdicionais e busca vetorial em todo o acervo do projeto.
Ambos sao construidos pela Echology. Ambos rodam no seu hardware. Nenhum dado sai pra nuvem de ninguem.
Se voce esta construindo agentes que leem documentos, vamos conversar. Se quer ver o que o Decompose encontra nos seus documentos, manda pra gente.