Uma metodologia para construção de preditores de doenças baseada em
Aprendizado de Máquina, Computação Bioinspirada e Análise Espaço-Temporal
Arboviroses. Epidemiologia Digital. Endemias. Predição.
Aprendizado de Máquina. Computação Bioinspirada.
Em um mundo cada vez mais conectado por meio de vias físicas e virtuais,
pessoas e dados circulam com cada vez mais facilidade. As mudanças
demográficas e o intenso fluxo migratório das zonas rurais para as regiões
urbanas geraram um crescimento desordenado das cidades. Isso combinado à
ausência de boas condições de saneamento básico contribui para a
proliferação do vetor. A emergência de surtos epidêmicos, como a dengue, a
febre chikungunya, a zika e outras doenças tem contribuído para construir
um cenário cada vez mais desafiador. A recente pandemia de Covid-19 trouxe
grandes mudanças em escala mundial. Nesse cenário, cresceu fortemente o
interesse por técnicas para predição espacial e temporal da distribuição de
doenças a partir de tecnologias como a Internet das Coisas, aprendizado de
máquina e múltiplas bases de dados. Este trabalho tem como objetivo geral
propor uma metodologia para construção de preditores capazes de prever a
distribuição espaço-temporal de doenças e apontar os fatores mais
relevantes para a predição a partir de uma arquitetura baseada no acesso a
múltiplas bases de dados. Para validação da proposta, foi adotada como
estudo de caso a predição de casos de arboviroses por meio de séries
históricas georreferenciadas de informações climáticas e ambientais
utilizando técnicas de aprendizado de máquina. Essas informações são
coletadas de múltiplos bancos de dados georreferenciados, previamente
construídos a partir da coleta de informações por redes de sensores e do
Sistema Único de Saúde. Foram utilizadas informações da Cidade do Recife,
de casos de arboviroses (dengue, chikungunya e zika) de 2013 a 2016, e
informações climáticas e ambientais do mesmo período, da APAC e doINMET.
Os sistemas de predição de doenças construídos utilizando a metodologia
proposta neste trabalho também devem ser capazes de apontar os fatores mais
relevantes para a predição por meio do Comitê de Especialistas Artificiais,
proposto neste trabalho e composto de um conjunto de algoritmos de seleção
de atributos baseados em métodos de otimização por Computação
Evolucionária. O Comitê de Especialistas Artificiais decide por votação. Os
melhores resultados de predição de casos foram obtidos com regressão por
Random Forest. Os valores do coeficiente de correlação de Pearson foram
superiores a 0,99, enquanto o RMSE (%) se manteve inferior a 6%. Os índices
de Kendall e Spearman também se mantiveram altos: seus valores foram
superiores a 0,99 para Spearman e maiores que 0,90 para Kendall. O
desempenho superior da Random Forest mostra que o problema de regressão é
de difícil generalização, dado que a Random Forest é baseada em comitês de
árvores de decisão e a regressão é realizada por uma média ponderada dos
resultados das diferentes árvores de decisão que compõem o modelo.