GRAPHICS FOR IDENTIFYING INFLUENTIAL OBSERVATIONS IN SPATIALLY CORRELATED DATA.
Geostatistics, hairplot, local influence, semivariogram.
A análise geoestatística desempenha um papel fundamental na interpretação e modelagem de dados espaciais, fornecendo informações relevantes sobre a variabilidade espacial e temporal do fenômeno observado. O reconhecimento e a compreensão das observações influentes nesse contexto são de extrema importância, dado o impacto direto dessas observações nas conclusões e inferências derivadas das análises geoestatísticas. A identificação precisa dessas observações é essencial para garantir a robustez e a confiabilidade dos modelos, especialmente quando se trabalha com conjuntos de dados complexos e dinâmicos. Nesse sentido, a presente tese concentra seus esforços na tarefa de detectar observações influentes em múltiplos cenários. A pesquisa está organizada em capítulos distintos, cada qual dedicado a um cenário específico: univariado, bivariado, multivariado e funcional. A metodologia proposta para identificação de observações influentes baseia-se em perturbações aditivas adaptadas para dados dependentes. No cenário univariado, exploramos o procedimento proposto por Genton, o hair-plot, com o objetivo de avaliar o desempenho geral da ferramenta e compreender suas eventuais limitações. Aplicamos o hair-plot a bases de dados simuladas e reais, incluindo dados de poluição provenientes do despejo de resíduos no Canal da Mancha e dados sobre o teor de zinco no Rio Meuse. Utilizamos o estimador clássico de Matheron para a estimação da semivariância, além de conduzirmos análises de influência local e assintótica. No cenário bivariado, propomos uma extensão aprimorada do hair-plot, integrando a semivariância cruzada ao estimador pelo método dos momentos para detectar observações influentes. Incorporamos bandas de confiança ao hair-plot e utilizamos Curvas de Andrews para superar limitações de visualização associadas aos lags. A metodologia é avaliada por meio de estudos de simulação e aplicada a uma base de dados real de solo no sul de Wisconsin. Realizamos análises de influência local e assintótica que permitem uma compreensão mais profunda dos impactos de observações influentes em contextos geoestatísticos bivariados. No cenário multivariado, utilizamos métodos baseados em curvatura normal e, a partir deles, desenvolvemos duas visualizações para detectar observações possivelmente influentes: o dmax-plot, baseado em perturbações simultâneas, e o parablot, baseado em perturbações individuais. Além disso, utilizamos o índice de Moran para confirmar o impacto das observações detectadas pelos métodos. Avaliamos essas ferramentas por meio de dados artificiais e duas bases reais: uma base amplamente utilizada na literatura, o conjunto Jura, e uma base de agricultura de precisão de Cascavel/PR. Adicionalmente, realizamos análises de influência local e assintótica no contexto multivariado das perturbações. No cenário funcional, concentramos a análise no traço do semivariograma, adotando três estratégias distintas de perturbação: (i) perturbação simultânea, na qual depois de suavizarmos os dados, realizamos uma discretização em t dimensões e aplicamos a metodologia multivariada; (ii) perturbações de fase; e (iii) perturbações de amplitude. Aplicamos essas três abordagens a bases de dados simulados e a dados de agricultura de precisão de Cascavel/PR. Também realizamos análises de influência local e assintótica para o caso funcional sob as diferentes perturbações.