Estratégias para Aprimorar Técnicas Supervisionadas de
Classificação para Contextos Semi-Supervisionados
Aprendizado semi-supervisionado, detectores de mudanças de
conceito, self-training, comitê de classificadores, fluxo de dados.
Os algoritmos de aprendizado de máquina que auxiliam na tomada de decisão
estão se tornando cruciais em diversas áreas, como saúde, finanças e
marketing. Quando expostos a uma quantidade maior e mais relevante de dados
de treinamento, tendem a apresentar melhor desempenho. No entanto, a
disponibilidade de dados rotulados sem a intervenção de especialistas
humanos é uma tarefa desafiadora, especialmente no aprendizado em fluxo de
dados com mudanças de conceito, em que os dados são gerados rapidamente, em
tempo real e com a possibilidade de alterações na distribuição de
probabilidade. As mudanças de conceito ocorrem em ambientes de aprendizado
supervisionado, semi-supervisionado e não supervisionado, sendo abordadas
em diferentes áreas, como estatística, aprendizado de máquina, entre
outras. Atualmente, o uso de detectores de mudanças com classificadores
base em aprendizado semi-supervisionado é incomum. Classificadores
semi-supervisionados frequentemente consomem muita memória e tempo de
execução, e a adição de um mecanismo de detecção aumenta o custo
computacional. Além disso, a classificação em ambientes
semi-supervisionados pode levar a problemas relacionados à rotulagem de
dados para treinamento. Um erro nesse processo pode impactar negativamente
o desempenho do modelo. Esta pesquisa explora e traz como contribuição os
seguintes pontos: 1) o uso de detectores de mudanças de conceito
supervisionados em problemas de aprendizado semi-supervisionado, destacando
como os detectores podem melhorar o desempenho da classificação; 2) a
influência da diversidade em comitês de classificadores, mostrando que o
aumento nesse parâmetro contribui para maior precisão e robustez dos
modelos em cenários com mudanças de conceito; 3) introduz uma abordagem de
self-training (auto-treinamento) para fornecer mais rótulos e otimizar o
aprendizado e a adaptação do modelo; e, por fim, 4) detalha as modificações
realizadas no framework Massive Online Analysis (MOA) para dar suporte a
simulação em cenários semi-supervisionados. Os experimentos realizados para
testar a abordagem proposta utilizaram Hoeffding Tree (HT) e Naïve Bayes
(NB) como classificadores base, que também foram empregados como membros
dos comitês nesta pesquisa. Esses classificadores foram combinados com
vários detectores e testados em um total de 84 conjuntos de dados
artificiais e cinco conjuntos de dados reais. Os experimentos foram
conduzidos com 15\% e 30\% de dados rotulados, as principais porcentagens
abordadas neste estudo, enquanto 25\% e 100\% foram utilizados para
fornecer suporte adicional em alguns casos. Os resultados indicam que
detectores desenvolvidos para aprendizado supervisionado podem ser
utilizados de forma eficaz em ambientes semi-supervisionados. Além disso,
os testes com a abordagem de self-training demonstram que a inclusão de
rótulos adicionais melhora significativamente o desempenho dos
classificadores. Essas descobertas podem levar a uma mudança de paradigma
em pesquisas futuras, uma vez que muitos pesquisadores não consideram os
detectores de mudanças de conceito como uma alternativa viável devido à
disponibilidade limitada de rótulos na maioria dos fluxos de dados do mundo
real.