Análise Exploratória e Regressão Espacial para Dados Simbólicos Intervalares
Análise de Dados Simbólicos; Dados Intervalares; Análise
Espacial; Índice de Moran; Modelos de Regressão
A Análise de Dados Espaciais é uma área que busca identificar padrões
existentes em uma
determinada região através de metodologias próprias. A compreensão da
dependência espacial de um fenômeno em uma dada região pode ser mensurada
através de abordagens envolvendo a noção de autocorrelação espacial. Essas
técnicas são usualmente empregadas no contexto de variáveis clássicas
(pontuais). Por outro lado, a Análise de Dados Simbólicos é uma área de
pesquisa e aplicação relacionada às áreas de aprendizagem de máquina e
estatística, que fornecem ferramentas para descrever unidades (objetos),
permitindo lidar com diversos tipos de variáveis, inclusive variáveis do
tipo intervalar. Uma questão relevante consiste em tentar obter uma
descrição da autocorrelação espacial para variáveis do tipo intervalar.
Assim, neste trabalho buscamos conciliar a análise de dados simbólicos
(variáveis intervalares) com a análise de dados espaciais. Mais
especificamente, o presente estudo tem o intuito de identificar o
comportamento de informações georreferenciadas para dados intervalares na
Análise de Dados Simbólicos. Os objetivos principais são: i) estender o
índice de autocorrelação espacial de Moran da Análise Exploratória Espacial
para o caso de dados intervalares e ii) avaliar esses dados por meios de
modelos de regressão. Para analisarmos os índices de autocorrelação
espacial intervalar propostos, realizamos experimentos com conjuntos de
dados sintéticos do tipo intervalo. Além disso, analisamos duas aplicações
para dados reais. A primeira utiliza dados de notificações de casos de
COVID-19 para o nordeste brasileiro e a segunda está relacionada ao preço
de aluguel de imóveis na cidade de Munich. No contexto de regressão,
utilizamos o modelo de regressão linear para dados do tipo intervalar e um
modelo de regressão espacial, que leva em consideração a conectividade
existente entre as regiões. Para avaliarmos o desempenho dessas abordagens,
realizamos simulações de Monte Carlo em que calculamos a média e
o desvio padrão da magnitude relativa do erro da estimativa dos modelos
analisados.