Aplicando ferramentas de análise de séries temporais não lineares para a detecção de mudanças de conceito no contexto do aprendizado adaptativo supervisionado
Aprendizado de Máquina. Fluxos de Dados. Mudança de Conceito. Séries Temporais Não Lineares.
Atualmente, algoritmos de Aprendizado de Máquina são aplicados em diversos
domínios para a extração de informação em grandes volumes de dados. Apesar
de modelos consolidados lidarem de forma efetiva com dados identicamente e
independentemente distribuídos (i.i.d.), algoritmos aplicados a fluxos de
dados devem lidar com distribuições não estacionárias. O desafio é manter
um modelo de decisão atualizado, preciso e consistente, mesmo sujeito a
mudanças nas distribuições de probabilidade dos dados, um fenômeno
conhecido como mudança de conceito. Neste contexto, os algoritmos combinam
um classificador e um detector para identificar mudanças na distribuição do
erro das predições a fim de adaptar ou substituir rapidamente o modelo
preditivo. Diversas propostas têm sido apresentadas na literatura para a
detecção de mudanças de conceito com base na taxa de erro dos modelos
preditivos. Em geral, a distribuição da taxa de erro fundamenta a maioria
das abordagens baseadas em metodologias como a análise sequencial, o
controle estatístico do processo, ou pelo monitoramento das distribuições
por meio de janelas deslizantes, as quais assumem que os erros de predição
são gerados de forma independente. Apesar da vasta aplicação desses
detectores, estudos empíricos têm mostrado que a taxa de erro pode ser
influenciada pela dependência temporal. Além disso, abordagens
supervisionadas requerem dados rotulados, os quais podem ser difíceis de
obter em muitas aplicações do mundo real. Nesta tese, ferramentas da
Análise Não Linear de Séries Temporais foram utilizadas com o objetivo de
prover detectores não restritos ao pressuposto de observações i.i.d., e
mais apropriados para lidar com fluxos de dados sujeitos à dependência
temporal.
Neste sentido, foram propostos três detectores: Spectral Entropy Drift
Detector (SEDD), Permutation Entropy Drift Detector (PEDD), e Recurrence
Quantification Analysis Drift Detector (RQADD). Também foi proposta uma
abordagem de rotulação simbólica (Symbolic Labeling Adapter (SLA)) com o
intuito de expandir a aplicação de modelos adaptativos supervisionados a
domínios onde fluxos de dados não são rotulados, visando a detecção de
mudanças de conceito. Diversos experimentos computacionais usando bases de
dados reais e artificiais mostram que os detectores propostos foram
competitivos na maioria dos cenários, e que a abordagem de rotulação é uma
ferramenta promissora.