Se seu sistema de IA processa documentos e alguem pergunta "por que ele sinalizou esta secao como critica de seguranca?" — o que voce responde?
"O modelo disse" nao e resposta. Nao na construcao. Nao na saude. Nao em nenhuma industria onde documentos tem peso legal e respostas erradas tem responsabilidade profissional.
"Consciente de simulacao" e um design pattern que responde essa pergunta. Toda classificacao e rastreavel a causas especificas. Toda saida e verificavel contra suas entradas. Toda anomalia e detectada antes de chegar a um humano. O padrao e construido a partir de primitivos reais de ciencia da computacao — arvores Merkle, DAGs causais, orcamentos de atencao, verificacoes de paridade — nao de marketing.
A ideia central
Trate cada documento como um pequeno universo. Ele tem suas proprias regras (requisitos obrigatorios, opcoes permissivas), sua propria fisica (cargas estruturais, limites financeiros), sua propria linha do tempo (prazos, marcos), e suas proprias entidades (orgaos de normas, partes, jurisdicoes).
Um sistema consciente de simulacao processa esse universo com o mesmo rigor que um motor de fisica processa um mundo de jogo:
- Todo estado e verificavel (voce pode provar que uma descoberta e consistente com a entrada)
- Toda transicao e causal (voce pode rastrear por que um estado levou a outro)
- Toda anomalia e detectavel (estados impossiveis sao sinalizados)
- Recursos sao orcados (atencao vai para onde importa)
Esta e a arquitetura por tras do AECai. Sao 17 sistemas distribuidos em tres pilares de engine. Aqui esta o que eles realmente fazem.
Sistema 1: Redes de Consistencia Causal
Toda descoberta no pipeline tem uma cadeia causal explicando por que foi feita. Nao um score de confianca. Nao uma probabilidade. Um grafo aciclico direcionado de causas especificas e rastreaveis.
Isso importa para defesa de seguro E&O. Quando um cliente pergunta "por que sua IA disse que isso era critico?" voce aponta para a cadeia causal, nao para os pesos do modelo. O grafo tem um verificador de consistencia que detecta ciclos, descobertas orfas e contradicoes. Se uma classificacao nao tem cadeia causal, e sinalizada como descoberta orfa — algo que o sistema produziu mas nao consegue explicar.
Sistema 2: Ancoras de Realidade
Alguns fatos em um documento sao externamente verificaveis. "ACI 318-19" e uma norma real. "15 de janeiro de 2026" e uma data real. "OSHA" e uma organizacao real. Esses sao ancoras — pontos de referencia conhecidamente verdadeiros contra os quais tudo mais e medido.
O modelo de confianca usa media geometrica das confiancias das ancoras. Uma descoberta com tres ancoras verificadas tem confianca ~1.0. Uma descoberta com uma ancora invalidada cai para ~0.0. Uma descoberta sem ancoras recebe baseline 0.5 — o sistema reconhece incerteza em vez de adivinhar.
Sistema 3: Arvores Merkle Temporais
Cada unidade semantica que o pipeline produz recebe um hash em uma arvore Merkle. O hash raiz representa toda a saida. Qualquer unidade individual pode ser verificada sem baixar o dataset completo.
Isso nao e blockchain. Nao ha consenso distribuido, mineracao, nem cadeia. E uma arvore Merkle padrao — a mesma estrutura de dados que o git usa para verificar commits. A diferenca e que opera no nivel da unidade semantica, entao voce pode verificar que um unico paragrafo de uma especificacao de 200 paginas nao foi alterado sem reprocessar o documento inteiro.
Sistema 4: Orcamentos de Atencao
O pipeline tem um orcamento fixo de atencao de 100 unidades por documento. Conteudo critico de seguranca consome mais. Boilerplate consome menos. O orcamento impede que o sistema gaste computacao igual em cada secao.
Este e o mesmo principio por tras do scoring de atencao do Decompose, mas aplicado ao pipeline completo. No Decompose, atencao decide o que seu agente le. No AECai, atencao decide qual profundidade de processamento cada unidade recebe.
Sistema 5: Correcao de Erros Multi-Canal
Execute multiplos canais independentes de extracao no mesmo conteudo. Onde os canais concordam, confianca alta. Onde discordam, sinalizar para revisao.
Isso captura erros de OCR, classificacoes incorretas e casos extremos que qualquer metodo de extracao unico perderia. A correcao e conservadora: unanime = alta confianca, maioria = corrigido com nota, dividido = sinalizado para revisao humana.
Sistema 6: Deteccao de Anomalias
Documentos podem conter contradicoes, datas impossiveis e referencias circulares. O detector de escape de simulacao sinaliza esses problemas antes de chegarem a um humano.
Uma data em 1847 e quase certamente um erro de OCR ou copy-paste. Duas versoes diferentes da mesma norma na mesma especificacao e um conflito real que precisa de resolucao. Ambos sao "escapes de simulacao" — estados que nao deveriam existir dadas as regras internas do documento.
O inventario completo
Seis sistemas explicados acima, onze mais rodando por baixo. Aqui esta o mapa completo, organizado por qual pilar de engine possui cada sistema:
Mais quatro sistemas no subsistema de torsao (agendamento lazy, computacao de campo spin-curvatura, cache de vortex, feedback de quiralidade) que lidam com os calculos iniciais de fisica de campo antes da classificacao comecar.
Por que o enquadramento de simulacao
Pergunta justa. Por que chamar de "consciente de simulacao" em vez de "pipeline de processamento de documentos"?
Porque o enquadramento muda como voce projeta sistemas. Se voce pensa em um documento como texto para extrair dados, voce constroi um pipeline. Se voce pensa em um documento como um universo para verificar, voce constroi algo diferente:
- Pipelines extraem dados. Simulacoes verificam consistencia.
- Pipelines classificam conteudo. Simulacoes explicam classificacoes.
- Pipelines processam sequencialmente. Simulacoes detectam anomalias.
- Pipelines produzem saida. Simulacoes provam que a saida esta correta.
O enquadramento de simulacao nos levou a sistemas que nao teriamos construido de outra forma. Redes de consistencia causal existem porque perguntamos "podemos rastrear a cadeia causal para cada descoberta?" Ancoras de realidade existem porque perguntamos "quais sao os fatos conhecidamente verdadeiros neste documento, e o que acontece quando um esta errado?" Arvores Merkle existem porque perguntamos "podemos verificar um unico paragrafo sem reprocessar 200 paginas?"
O que isso habilita
1. Defesa de auditoria
Quando um cliente ou regulador pergunta "por que seu sistema sinalizou esta secao como critica de seguranca?", voce mostra a cadeia causal: palavra-chave "shall" (autoridade obrigatoria) + referencia a OSHA 1926 (norma de seguranca) + contexto de disciplina estrutural = classificacao critica de seguranca. Cada elo na cadeia e um sinal especifico e verificavel.
2. Verificacao incremental
Uma especificacao de 500 paginas foi processada ha seis meses. Hoje, a secao 14 precisa de re-verificacao. A arvore Merkle fornece um caminho de prova para a secao 14 sem reprocessar as secoes 1-13 e 15-500.
3. Confianca em cascata
ASTM C150-22 e substituida pela C150-23. Uma invalidacao de ancora, e toda descoberta em todo documento que referenciou a norma antiga e sinalizada como "suspeita" com uma trilha clara. Sem reprocessamento necessario — apenas uma atualizacao de ancora que cascateia pelo grafo de dependencias.
O que abrimos como open source
Decompose e a versao open source de dois desses sistemas: o pontuador de atencao (sistema 4) e o detector de irredutibilidade (sistema 5). Roda em regex puro, processa documentos em ~14ms em media, e da a qualquer agente a capacidade de priorizar o que importa.
Os 15 sistemas restantes fazem parte do AECai, que roda localmente no seu hardware e processa documentos AEC com a arquitetura completa consciente de simulacao.
Ambos sao construidos pela Echology. Se voce esta construindo inteligencia de documentos para uma industria onde respostas erradas tem consequencias, vamos conversar.