Uso de Dados de Proveniência em Pipelines de Aprendizado de
Máquina: Um Caso de Uso com Seleção de Atributos
Aprendizado de Máquina, Dados de Proveniência, Seleção de
Atributos, Ontologias.
Com o aumento exponencial dos dados e o desenvolvimento de sistemas
inteligentes baseados em Aprendizado de Máquina (AM), surgem novas
oportunidades e desafios. A eficácia desses sistemas depende da compreensão
dos princípios do AM, principalmente na utilização de algoritmos
supervisionados, que aprendem a partir de dados rotulados para realizar
tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma
oportunidade de rastrear e entender decisões feitas durante as execuções
anteriores de pipelines de AM, promovendo a transparência e rastreabilidade
desses processos. Embora a literatura explore o uso de dados de
proveniência em AM, sua aplicação em atividades de seleção de atributos
ainda é pouco explorada, apesar do potencial para automatizar ajustes e
melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem
focada em dados de proveniência de execuções de pipelines de AM, com o
objetivo explorar o papel desses dados na reexecução e ajuste de atividades
de seleção de atributos em pipelines de aprendizado de máquina.
Especificamente, investigam-se duas questões de pesquisa: (1) como dados de
proveniência podem promover a reexecução de atividades de pipelines de AM
em futuras execuções, e (2) como esses dados podem contribuir para melhorar
a atividade de seleção de atributos, ajustando o modelo de AM com base em
execuções passadas. A solução apresentada envolve a captura de dados de
proveniência durante a execução de pipelines de AM e a estruturação
semântica desses dados usando uma extensão da ontologia PROV(W3C). A
estruturação visa otimizar a reutilização das informações para ajustar e
melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a
seleção de atributos com base em execuções anteriores, promovendo o
aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido
um protótipo que automatiza a captura, organização e utilização dos dados
de proveniência. Através de experimentos considerando diferentes tarefas
para o treinamento de modelos de AM, foi observado que a aplicação desses
ajustes, com base em dados de proveniência, resultou em melhorias nas
métricas de acurácia e F1-Score avaliadas sobre os modelos de AM gerados.
Os resultados dos experimentos indicam que a utilização dos dados de
proveniência contribui para otimizar o processo de treinamento,
especialmente ao considerar a reexecução e ajuste das atividades. Entre as
principais contribuições deste trabalho destacam-se a definição da
ontologia PROVX, que permite a modelagem e o gerenciamento de dados de
proveniência em pipelines de AM, e a proposição de uma estratégia que
facilita o aprimoramento dos modelos com base nos dados de execuções
anteriores.