Uma Metodologia Baseado em Grafos para Deteccao de Redundancia
Estrutural em Arquiteturas Data Mesh
Data Mesh, Redundância Estrutural, Governança de Dados,
Isomorfismo de Grafos, Detecção de Subgrafos, DataCraft, Matriz de
Adjacência, TPC-DS, VF2, Node Match, GNN, Success Frequency.
A crescente adoção do paradigma \textit{Data Mesh} tem promovido a
descentralização da posse e responsabilidade sobre os dados nas
organizações. Embora essa abordagem favoreça a autonomia dos domínios de
negócio, ela também potencializa a criação de pipelines redundantes entre
domínios distintos, resultando em sobrecarga computacional, perda de
governança e dificuldades na rastreabilidade de dados.
Esta dissertação propõe uma metodologia formal e reprodutível para detecção
de redundâncias estruturais em arquiteturas distribuídas orientadas a
dados. A proposta fundamenta-se na modelagem das arquiteturas como grafos
direcionados, com representações matriciais (matriz de adjacência) e
transformações algébricas capazes de identificar equivalências estruturais
mesmo em cenários com ordenações distintas de vértices. A operação central
da metodologia utiliza a identificação de isomorfismo estrutural de
subgrafos como forma de evidenciar duplicidade entre tabelas e pipelines.
A metodologia foi operacionalizada por meio da ferramenta DataCraft,
desenvolvida em Python, que permite a geração de arquiteturas sintéticas
parametrizadas ou a adaptação de benchmarks reais, como o TPC-DS, para
ambientes de validação. A ferramenta também oferece suporte à avaliação
humana das correspondências encontradas, possibilitando feedbacks que
retroalimentam o processo e apoiam decisões de consolidação.
Como forma de validar a eficácia da abordagem, foram aplicados algoritmos
de verificação estrutural como VF2, Node Match e modelos baseados em redes
neurais, demonstrando a flexibilidade da metodologia para diferentes
estratégias de implementação. As métricas utilizadas para avaliação — como
acurácia, tempo de execução e frequência de acertos (success frequency) —
permitiram demonstrar a aplicabilidade da solução em contextos realistas.
A principal contribuição desta dissertação reside na estrutura metodológica
desenvolvida para apoiar a governança de dados em arquiteturas
descentralizadas, fornecendo uma base teórica e prática para a detecção e
mitigação de redundâncias estruturais, com suporte à validação,
reprodutibilidade e escalabilidade.