MÉTODOS ESTATÍSTICOS PARA DADOS EM ESPAÇOS NÃO EUCLIDIANOS
Dados direcionais, dados axiais, distância estocástica, testes de hipóteses critérios de concentração, variedade, medida extrínseca, medida intrínseca.
Esta Tese objetiva primeiramente estudar concentração em dados esféricos através deum novo paradigma, a saber reduzir o problema da esfera real para o intervalo [0, 1]. Os dados eféricos endereçados são em duas frentes: fenômenos direcionais e axiais. Para este fim,duas distribuições são propostas a partir de transformações beseadas em distâncias sobre as distribuições von Mises-Fisher (caso direcional) e Watson (caso axial) reais. As distribuições são denotadas como primeira transformação baseada em distância (TD1(𝜅)) e segunda transformação baseada em distância (TD2(𝜅)) para os casos direcional e axial, respectivamente, sendo 𝜅 um parâmetro que herda a relação com a concentração dos dados das distribuições esféricas. Adicionalmente, a discussão do novo paradigma para estudo de concentração é feita de sorte que se pode gerar outras distribuições a partir da propriedade de simetria rotacional na esfera real. Algumas propriedades matemáticas para as distribuições TD1 e TD2 são discutidas: função geradora de momentos, momentos, curtose, assimetria e matriz de informação de Fisher. Além disso, discussões sobre inferência (pontual e teste de hipótese) para os parâmetros dos novos modelos são realizadas. Uma vez estudadas e propostas as distribuições, elas são utilizadas como elementos centrais no desenvolvimento de estatísticas de testes para dados direcionais (a saber uma função de TD1) e axiais (uma função de TD2). Distribuições exatas para estas estatísticas são derivadas. Estudos numéricos, para as distribuições TD1 e TD2, apontam que as estimativas de máxima verossimilhança para 𝜅 apresentam bons desempenhos mesmo em pequenas amostras. Para o modelo 𝑇𝐷1, verificam-se que: (i) os testes de hipóteses clássicos (escore, Wald e razão de verossimilhanças) são em geral conservadores quanto ao nível pré-especificado em altas concentrações; (ii) o teste escore foi o mais conservador; (iii) o teste Wald foi o mais liberal para pequenos valores de 𝜅. Para o modelo 𝑇𝐷2, observam-se que: (i) o teste da razão de verossimilhanças tende a ser mais liberal para 𝜅 > 1; (ii) os testes Wald e escore são mais conservadores para 𝜅 > 0. Duas aplicações são feitas para ilustrar as propostas em dados esféricos. Resultados mostram que o uso dos paradigmas propostos conseguem detectar de modo simples (isto é, transferindo o problema de uma esfera Esta Tese objetiva primeiramente estudar concentração em dados esféricos através de um novo paradigma, a saber reduzir o problema da esfera real para o intervalo [0, 1]. Os dados eféricos endereçados são em duas frentes: fenômenos direcionais e axiais. Para este fim, duas distribuições são propostas a partir de transformações beseadas em distâncias sobre as distribuições von Mises-Fisher (caso direcional) e Watson (caso axial) reais. As distribuições são denotadas como primeira transformação baseada em distância (TD1(𝜅)) e segunda transformação baseada em distância (TD2(𝜅)) para os casos direcional e axial, respectivamente, sendo 𝜅 um parâmetro que herda a relação com a concentração dos dados das distribuições esféricas. Adicionalmente, a discussão do novo paradigma para estudo de concentração é feita de sorte que se pode gerar outras distribuições a partir da propriedade de simetria rotacional na esfera real. Algumas propriedades matemáticas para as distribuições TD1 e TD2 são discutidas: função geradora de momentos, momentos, curtose, assimetria e matriz de informação de Fisher. Além disso, discussões sobre inferência (pontual e teste de hipótese) para os parâmetros dos novos modelos são realizadas. Uma vez estudadas e propostas as distribuições, elas são utilizadas como elementos centrais no desenvolvimento de estatísticas de testes para dados direcionais (a saber uma função de TD1) e axiais (uma função de TD2). Distribuições exatas para estas estatísticas são derivadas. Estudos numéricos, para as distribuições TD1 e TD2, apontam que as estimativas de máxima verossimilhança para 𝜅 apresentam bons desempenhos mesmo em pequenas amostras. Para o modelo 𝑇𝐷1, verificam-se que: (i) os testes de hipóteses clássicos (escore, Wald e razão de verossimilhanças) são em geral conservadores quanto ao nível pré-especificado em altas concentrações; (ii) o teste escore foi o mais conservador; (iii) o teste Wald foi o mais liberal para pequenos valores de 𝜅. Para o modelo 𝑇𝐷2, observam-se que: (i) o teste da razão de verossimilhanças tende a ser mais liberal para 𝜅 > 1; (ii) os testes Wald e escore são mais conservadores para 𝜅 > 0. Duas aplicações são feitas para ilustrar as propostas em dados esféricos. Resultados mostram que o uso dos paradigmas propostos conseguem detectar de modo simples (isto é, transferindo o problema de uma esfera real para o intervalo [0, 1]) e eficiente alta concentração em amostras esféricas.
É sabido que a média é uma medida de locação influenciada por valores destoantes do conjunto tanto no contexto uni quanto multivariado em espaços Euclidianos. Esse problema também se verifica para variedades estocásticas, como o espaço das pré-formas ou a hiperesfera complexa. A segunda parte desta tese se dedica a proposta de métodos baseados na mediana extrínseca como alternativa a média extrínseca de Fréchet, que tem fórmula analítica intratável. Fórmulas matemáticas para computar a mediana extrínseca projetada e procedimentos para detecção de outliers, baseados nessa medida, são apresentados. Estudos numéricos por simulação de Monte Carlo são realizados para quantificar a robustez da nova mediana em termos da distribuição Bingham complexa para o caso de formas planares (ou em duas
dimensões). Os resultados mostraram que a mediana proposta é mais robusta que a forma média, principalmente para pequenos tamanhos de amostras. Uma aplicação aos dados de microfósseis ilustra o uso da mediana proposta.