Ajuste Dinâmico de Parâmetros: Enfoques, Estratégias e Experimentações Aplicadas na Aprendizagem em Fluxos de Dados com Mudanças de Conceitos
Detecção de Mudança de Conceito. Comitê. Aprendizado
Online. Fluxo de Dados. Classificação. Parametrização Dinâmica.
O processo de trabalho com fluxos de dados exige novas demandas e tarefas
desafiadoras na área de mineração de dados e aprendizagem de máquina. Esse
fluxo pode ser categorizado como um sistema que gera muitos dados ao longo
do tempo.
Dessa forma, quando a distribuição de probabilidade dentro desse fluxo
varia, estamos com um problema comumente conhecido como mudança de conceito
(Concept Drift).
O processo de implementação de novos métodos para lidar com fluxos de dados
contendo mudanças de conceito requer algoritmos que sejam capazes de se
adaptar a diferentes situações para, assim, melhorar sua performance.
Nesse sentido, o ajuste dinâmico de parâmetros é um contexto pouco
aprofundado nas implementações e experimentações das pesquisas da área,
requerendo uma especial atenção, sobretudo para que estes métodos consigam
se adaptar melhor aos diferentes ambientes onde são aplicados.
Nesta pesquisa são propostos vários enfoques e estratégias para ajustar
parâmetros de forma dinâmica em vários algoritmos de classificação
existentes. Desse modo, primeiramente são apresentadas várias versões do
Paired k-NN Learners with Dynamically Adjusted Number of Neighbors (PLKNN,
PLKNN2, PLKNN3 e PLKNN4), um novo método de classificação em par que
utiliza diferentes procedimentos para ajustar de forma dinâmica e
incremental o número de vizinhos k. Todas as versões são aplicados ao
processo de aprendizagem online em fluxo de dados com mudanças de conceitos.
A outra proposta desta tese é o Parameter Estimation Procedure (PEP), um
método genérico para o ajuste dinâmico de parâmetros que é aplicado ao
parâmetro de diversidade 𝜆 (lambda), comum a vários comitês de
classificadores utilizados na área. Com essa finalidade, o método de
estimação proposto (PEP) foi utilizado para criar versões alternativas de
três comitês já existentes: Boosting-like Online Learning Ensemble with
Parameter Estimation (BOLE-PE), Online AdaBoost-based M1 with Parameter
Estimation (OABM1-PE) e Oza and Russell's Online Bagging with Parameter
Estimation (OzaBag-PE).
Para validá-los, foram realizados experimentos com conjuntos de dados
artificiais e reais e os resultados foram avaliados usando a métrica de
acurácia e o teste de Friedman com o pós-teste Nemenyi.
Os resultados relacionados com PL-kNN e suas versões mostram que estas
contribuições melhoraram o desempenho do K-Nearest Neighbors (k-NN) com
valores fixos de $k$ na maior parte dos cenários testados.
Já os resultados das versões BOLE-PE, OABM1-PE e OzaBag-PE evidenciaram que
a estimação dinâmica do 𝜆 é capaz de produzir bons resultados na maioria
dos ambientes experimentados.