Um Modelo de Suporte para Conformidade de Data Lake com a LGPD
Data Lakes. LGPD. Rastreabilidade. Metadados. Conformidade.
Na era do Big Data, um grande volume de dados estruturados,
semi-estruturados, e principalmente não estruturados é gerado muito mais
rápido por tecnologias digitais e sistemas de informação. Neste contexto,
Data Lakes surgiram como uma alternativa aos tradicionais Data Warehouses,
tornando-se uma das soluções de Big Data mais utilizadas para análise e
gerenciamento distribuído de grande volumes de dados. A ideia principal do
Data Lake é ingerir dados brutos e processá-los durante seu uso,
caracterizando a abordagem \textit{schema on-read}. Durante seu ciclo de
vida em um Data Lake, um dado pode passar por inúmeras transformações,
levando a questões de rastreabilidade. Com a LGPD em vigor, as organizações
precisam ter ao seu dispor além das mudanças ocorridas, informações sobre
quem modificou os dados, onde modificou e as dependências geradas. Visando
atender esse problema, alguns modelos de metadados foram propostos na
literatura. No entanto, nenhum deles foca em apresentar metadados que
descrevam a linhagem dos dados. Sendo assim, essa dissertação propõe um
Modelo de Suporte para Conformidade de Data Lake com a LGPD (Data Lake
Compliance Model - DLCM), que tem como objetivo descrever os conjuntos de
dados no Data Lake e os tratamentos aplicados sobre eles.