Metodologia para seleção de técnicas de anonimização usando
meta-aprendizagem
Anonimização de dados. Preservação da privacidade.
Aprendizado de máquina. Meta-aprendizagem. Seleção automática de técnicas.
A crescente disponibilidade e utilização de dados pessoais em diferentes domínios têm intensificado a necessidade de mecanismos eficazes para a preservação da privacidade, especialmente diante dos riscos de reidentificação associados ao compartilhamento de bases de dados. Nesse contexto, técnicas de anonimização emergem como estratégias fundamentais para equilibrar a proteção da privacidade e a manutenção da utilidade dos dados, viabilizando sua utilização em análises e em tarefas que envolvem aprendizado de máquina. Entretanto, a escolha da técnica de anonimização mais adequada para um determinado conjunto de dados ainda é, em grande parte, realizada de forma manual, baseada em processos de tentativa e erro ou em conhecimento empírico adquirido ao longo do tempo, o que pode resultar em abordagens ineficientes, pouco sistemáticas e de baixa escalabilidade.
Sendo assim, este trabalho propõe uma metodologia baseada em meta-aprendizagem para automatizar a seleção da técnica de anonimização mais adequada a partir das características dos conjuntos de dados. Inicialmente, diferentes técnicas de anonimização (k-anonymity, l-diversity, t-closeness e differential privacy) são aplicadas a múltiplos conjuntos de dados tabulares, e seu impacto na utilidade dos dados é avaliado por meio do desempenho de modelos de aprendizado de máquina. Em seguida, são extraídas meta-features que caracterizam os conjuntos de dados, as quais são utilizadas na construção de um meta-dataset rotulado com a técnica que apresenta a melhor preservação da utilidade em cada cenário. Com base nesse conjunto, meta-modelos são treinados para aprender a relação entre as características dos dados e o desempenho das técnicas de anonimização.
Os resultados experimentais mostram que, embora a aplicação de técnicas de anonimização introduza alterações na utilidade dos dados, é possível manter desempenho preditivo satisfatório em tarefas de aprendizado de máquina, caracterizando o trade-off entre privacidade e desempenho. No nível base, observou-se que a técnica k-anonymity apresenta o melhor desempenho médio global entre as abordagens avaliadas, enquanto o modelo de classificação Decision Tree mostrou-se menos sensível ao processo de anonimização. Como consequência, a combinação entre k-anonymity e Decision Tree configurou-se como a abordagem com melhor desempenho global. No nível meta, a abordagem baseada em meta-learning superou de forma consistente os baselines Random e Majority, demonstrando capacidade de generalização para novos conjuntos de dados, com destaque para o meta-modelo Random Forest, que obteve os melhores valores de acurácia e valores de F1-score competitivos. Esses achados evidenciam que a seleção automatizada de técnicas de anonimização, orientada por meta-aprendizagem, constitui uma estratégia eficaz para mitigar perdas de utilidade e equilibrar privacidade e desempenho preditivo. Palavras-chaves: Anonimização de dados. Preservação da privacidade. Aprendizado de máquina. Meta-aprendizagem. Seleção automática de técnicas.