Banca de DEFESA: NATACHA TARGINO RODRIGUES SIMOES BRASILEIRO

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: NATACHA TARGINO RODRIGUES SIMOES BRASILEIRO
DATA : 27/02/2025
HORA: 09:00
LOCAL: Virtual
TÍTULO:

Uso de Dados de Proveniência em Pipelines de Aprendizado de 
Máquina: Um Caso de Uso com Seleção de Atributos


PALAVRAS-CHAVES:

Aprendizado de Máquina, Dados de Proveniência, Seleção de 
Atributos, Ontologias.


PÁGINAS: 103
RESUMO:

Com o aumento exponencial dos dados e o desenvolvimento de sistemas 
inteligentes baseados em Aprendizado de Máquina (AM), surgem novas 
oportunidades e desafios. A eficácia desses sistemas depende da compreensão 
dos princípios do AM, principalmente na utilização de algoritmos 
supervisionados, que aprendem a partir de dados rotulados para realizar 
tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma 
oportunidade de rastrear e entender decisões feitas durante as execuções 
anteriores de pipelines de AM, promovendo a transparência e rastreabilidade 
desses processos. Embora a literatura explore o uso de dados de 
proveniência em AM, sua aplicação em atividades de seleção de atributos 
ainda é pouco explorada, apesar do potencial para automatizar ajustes e 
melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem 
focada em dados de proveniência de execuções de pipelines de AM, com o 
objetivo explorar o papel desses dados na reexecução e ajuste de atividades 
de seleção de atributos em pipelines de aprendizado de máquina. 
Especificamente, investigam-se duas questões de pesquisa: (1) como dados de 
proveniência podem promover a reexecução de atividades de pipelines  de AM 
em futuras execuções, e (2) como esses dados podem contribuir para melhorar 
a atividade de seleção de atributos, ajustando o modelo de AM com base em 
execuções passadas. A solução apresentada envolve a captura de dados de 
proveniência durante a execução de pipelines de AM e a estruturação 
semântica desses dados usando uma extensão da ontologia PROV(W3C). A 
estruturação visa otimizar a reutilização das informações para ajustar e 
melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a 
seleção de atributos com base em execuções anteriores, promovendo o 
aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido 
um protótipo que automatiza a captura, organização e utilização dos dados 
de proveniência. Através de experimentos considerando diferentes tarefas 
para o treinamento de modelos de AM, foi observado que a aplicação desses 
ajustes, com base em dados de proveniência, resultou em melhorias nas 
métricas de acurácia e F1-Score avaliadas sobre os modelos de AM gerados. 
Os resultados dos experimentos indicam que a utilização dos dados de 
proveniência contribui para otimizar o processo de treinamento, 
especialmente ao considerar a reexecução e ajuste das atividades. Entre as 
principais contribuições deste trabalho destacam-se a definição da 
ontologia PROVX, que permite a modelagem e o gerenciamento de dados de 
proveniência em pipelines de AM, e a proposição de uma estratégia que 
facilita o aprimoramento dos modelos com base nos dados de execuções 
anteriores.


MEMBROS DA BANCA:
Externo à Instituição - DIMAS CASSIMIRO DO NASCIMENTO FILHO - UFRPE
Externa à Instituição - ANDREZA LEITE DE ALENCAR - UFRPE
Externo à Instituição - DIEGO ERNESTO ROSA PESSOA - IFPB
Presidente - 1130534 - FERNANDO DA FONSECA DE SOUZA
Externo à Instituição - MARCELO IURY DE SOUSA OLIVEIRA - UFPB
Notícia cadastrada em: 18/02/2025 09:04
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2025 - UFRN - sigaa07.ufpe.br.sigaa07