PPGEST PROGRAMA DE POS-GRADUACAO EM ESTATISTICA - CCEN DEPARTAMENTO DE ESTATISTICA - CCEN Telefone/Ramal: Não informado
Dissertações/Teses

Clique aqui para acessar os arquivos diretamente da Biblioteca Digital de Teses e Dissertações da UFPE

2022
Dissertações
1
  • JAIME PHASQUINEL LOPES CAVALCANTE
  • VARIABILIDADE E ADERÊNCIA EM MODELOS DE APRENDIZADO DE MÁQUINA COM DISTRIBUIÇÃO BETA

  • Orientador : PATRICIA LEONE ESPINHEIRA OSPINA
  • MEMBROS DA BANCA :
  • RAFAEL IZBICKI
  • FRANCISCO CRIBARI NETO
  • PATRICIA LEONE ESPINHEIRA OSPINA
  • RAYDONAL OSPINA MARTINEZ
  • Data: 07/02/2022

  • Mostrar Resumo
  • Proposto por Ferrari e Cribari-Neto (2004), o modelo de regressão beta tem sido
    objeto de estudo de diversos autores devido a sua relevância para a modelagem
    de fenômenos cuja variável resposta esteja definida no intervalo unitário (0,1).
    No tocante ao diagnóstico dos modelos de regressão beta, Espinheira et al.
    (2008) apresentaram a definição de resíduos baseados no processo iterativo
    Scoring de Fisher, sendo esta amplamente utilizada para a generalização e
    proposição de novos resíduos para as extensões dos modelos de regressão
    beta. Com o foco na distribuição de probabilidade e observando que a mesma
    forma uma família exponencial bidimensional, utilizamos o Teorema da Função
    Integrável - demonstrado por Barndorff-Nielsen (1978) e Lehmann (1986) - para
    propor uma nova classe de resíduos e critérios do tipo baseados nas estatísticas
    suficientes e completas com a finalidade de avaliar a variabilidade e aderência,
    além de realizar diagnósticos em modelos de aprendizado de máquina (machine
    learning) com distribuição beta. Além disso, para o modelo de regressão beta,
    propomos um novo resíduo baseado no processo iterativo Scoring de Fisher.
    Quanto à qualidade preditiva, utilizamos a estatística PRESS e o coeficiente de
    predição , introduzido por Espinheira et al. (2019) para a classe de modelos de
    regressão beta lineares e não-lineares. O desempenho das propostas é avaliado
    por meio de três aplicações, associadas a um conjunto de dados reais, relativas
    ao estudo do risco a doenças cardiovasculares.


  • Mostrar Abstract
  • Proposto por Ferrari e Cribari-Neto (2004), o modelo de regressão beta tem sido
    objeto de estudo de diversos autores devido a sua relevância para a modelagem
    de fenômenos cuja variável resposta esteja definida no intervalo unitário (0,1).
    No tocante ao diagnóstico dos modelos de regressão beta, Espinheira et al.
    (2008) apresentaram a definição de resíduos baseados no processo iterativo
    Scoring de Fisher, sendo esta amplamente utilizada para a generalização e
    proposição de novos resíduos para as extensões dos modelos de regressão
    beta. Com o foco na distribuição de probabilidade e observando que a mesma
    forma uma família exponencial bidimensional, utilizamos o Teorema da Função
    Integrável - demonstrado por Barndorff-Nielsen (1978) e Lehmann (1986) - para
    propor uma nova classe de resíduos e critérios do tipo baseados nas estatísticas
    suficientes e completas com a finalidade de avaliar a variabilidade e aderência,
    além de realizar diagnósticos em modelos de aprendizado de máquina (machine
    learning) com distribuição beta. Além disso, para o modelo de regressão beta,
    propomos um novo resíduo baseado no processo iterativo Scoring de Fisher.
    Quanto à qualidade preditiva, utilizamos a estatística PRESS e o coeficiente de
    predição , introduzido por Espinheira et al. (2019) para a classe de modelos de
    regressão beta lineares e não-lineares. O desempenho das propostas é avaliado
    por meio de três aplicações, associadas a um conjunto de dados reais, relativas
    ao estudo do risco a doenças cardiovasculares.

2
  • JACIELE DE JESUS OLIVEIRA
  • Modelos SIR e algoritmos tipo ensemble com aplicações a COVID-19

  • Orientador : RAYDONAL OSPINA MARTINEZ
  • MEMBROS DA BANCA :
  • ALEX DIAS RAMOS
  • HEMILIO FERNANDES CAMPOS COELHO
  • RAYDONAL OSPINA MARTINEZ
  • Data: 14/02/2022

  • Mostrar Resumo
  • Em janeiro de 2020 o mundo foi surpreendido com uma nova epidemia, o COVID-19, causada pelo vírus Sars-Cov-2.  O surto deste vírus teve início na China e se espalhou rapidamente pelo mundo, de forma que no dia 11 de março de  2020 a Organização Mundial de Saúde (OMS) classificou o alastramento do vírus como uma pandemia. Por se tratar  de um vírus novo, até então, não havia conhecimento sobre o seu comportamento, tornando crucial o uso de ferramentas estatísticas e matemáticas que permitissem descrever o curso da epidemia. Neste trabalho abordaremos algumas dessas  ferramentas, que podem ser utilizadas para descrever a propagação de doenças infecciosas. Ajustamos o modelo  compartimentado SIR aos dados de COVID-19 do estado da Paraíba para estimar as taxas de infecção e recuperação da  doença e comparamos com resultados de prevalência estimados por uma pesquisa amostral sorológica probabilística  realizada no estado. Os resultados obtidos pelo modelo SIR indicam subestimação com base em dados com possível  subnotificação. Numa tentativa de aprimorar a análise dos dados, passamos a trabalhar com as curvas acumuladas de  óbitos, uma vez que essas curvas são mais estáveis e os números de óbitos não dependem do registro de casos confirmados.  Para isso utilizamos uma abordagem via modelo combinados (ensemble). Este tipo de abordagem usa modelos dinâmicos  de crescimento integrando a predição de vários modelos através de uma combinação ponderada, o que permite diminuir  o erro de previsão. Para a construção do modelo ensemble utilizamos os modelos de crescimento logístico, de Gompertz  e de Richards. O modelo ensemble se ajustou de forma satisfatória aos dados se mostrando uma metodologia promissora  para predição dos dados da COVID-19.


  • Mostrar Abstract
  • Em janeiro de 2020 o mundo foi surpreendido com uma nova epidemia, o COVID-19, causada pelo vírus Sars-Cov-2.  O surto deste vírus teve início na China e se espalhou rapidamente pelo mundo, de forma que no dia 11 de março de  2020 a Organização Mundial de Saúde (OMS) classificou o alastramento do vírus como uma pandemia. Por se tratar  de um vírus novo, até então, não havia conhecimento sobre o seu comportamento, tornando crucial o uso de ferramentas estatísticas e matemáticas que permitissem descrever o curso da epidemia. Neste trabalho abordaremos algumas dessas  ferramentas, que podem ser utilizadas para descrever a propagação de doenças infecciosas. Ajustamos o modelo  compartimentado SIR aos dados de COVID-19 do estado da Paraíba para estimar as taxas de infecção e recuperação da  doença e comparamos com resultados de prevalência estimados por uma pesquisa amostral sorológica probabilística  realizada no estado. Os resultados obtidos pelo modelo SIR indicam subestimação com base em dados com possível  subnotificação. Numa tentativa de aprimorar a análise dos dados, passamos a trabalhar com as curvas acumuladas de  óbitos, uma vez que essas curvas são mais estáveis e os números de óbitos não dependem do registro de casos confirmados.  Para isso utilizamos uma abordagem via modelo combinados (ensemble). Este tipo de abordagem usa modelos dinâmicos  de crescimento integrando a predição de vários modelos através de uma combinação ponderada, o que permite diminuir  o erro de previsão. Para a construção do modelo ensemble utilizamos os modelos de crescimento logístico, de Gompertz  e de Richards. O modelo ensemble se ajustou de forma satisfatória aos dados se mostrando uma metodologia promissora  para predição dos dados da COVID-19.

3
  • JERFSON BRUNO DO NASCIMENTO HONÓRIO
  • Classificação Não Supervisionada no Contexto de Tamanho e Forma

  • Orientador : GETULIO JOSE AMORIM DO AMARAL
  • MEMBROS DA BANCA :
  • FERNANDA DE BASTIANI
  • GETULIO JOSE AMORIM DO AMARAL
  • LUCIA PEREIRA BARROSO
  • Data: 17/02/2022

  • Mostrar Resumo
  • A dissertação tem como objetivo propor métodos de classificação não supervisionados no contexto de tamanho e forma considerando imagens bidimensionais (formas planas). Apresentamos novos métodos de classificação baseados em testes de hipóteses e no algoritmo K-médias. Também propomos combinações de algoritmos usando métodos de ensemble: Bagging e Boosting.

    Para avaliar os métodos propostos foram analisados dados simulados e dados reais. Com os dados simulados, três cenários foram usados para avaliar o desempenho dos métodos propostos.  Os cenários correspondem a grupos de alta, média e baixa variabilidade. Os resultados numéricos indicaram que para os conjuntos de dados, quando os tamanhos dos centróides se diferenciam, o desempenho dos algoritmos melhora. Além disso, os algoritmos baseados em Boosting e Bagging superam suas versões básicas. Três conjuntos de dados do mundo real são considerados: dados de referência de crânios de grandes macacos; dados de vértebras de camundongos e imagens de ressonância magnética de pessoas com esquizofrenia. Esses conjuntos de dados têm configurações diferentes, como vários pontos de referência e variabilidade. Os métodos K-médias Bagging e K-médias Boosting tem o melhor desempenho nos conjuntos de dados. Por fim, considerando os resultados com dados sintéticos e reais, o k-médias Bagging é escolhido como o melhor método.


  • Mostrar Abstract
  • A dissertação tem como objetivo propor métodos de classificação não supervisionados no contexto de tamanho e forma considerando imagens bidimensionais (formas planas). Apresentamos novos métodos de classificação baseados em testes de hipóteses e no algoritmo K-médias. Também propomos combinações de algoritmos usando métodos de ensemble: Bagging e Boosting.

    Para avaliar os métodos propostos foram analisados dados simulados e dados reais. Com os dados simulados, três cenários foram usados para avaliar o desempenho dos métodos propostos.  Os cenários correspondem a grupos de alta, média e baixa variabilidade. Os resultados numéricos indicaram que para os conjuntos de dados, quando os tamanhos dos centróides se diferenciam, o desempenho dos algoritmos melhora. Além disso, os algoritmos baseados em Boosting e Bagging superam suas versões básicas. Três conjuntos de dados do mundo real são considerados: dados de referência de crânios de grandes macacos; dados de vértebras de camundongos e imagens de ressonância magnética de pessoas com esquizofrenia. Esses conjuntos de dados têm configurações diferentes, como vários pontos de referência e variabilidade. Os métodos K-médias Bagging e K-médias Boosting tem o melhor desempenho nos conjuntos de dados. Por fim, considerando os resultados com dados sintéticos e reais, o k-médias Bagging é escolhido como o melhor método.

4
  • RAFAEL ZIMMERLE DA NOBREGA
  • Causal Inference in Sampling From Finite Populations

  • Orientador : CRISTIANO FERRAZ
  • MEMBROS DA BANCA :
  • CRISTIANO FERRAZ
  • VINICIUS QUINTAS SOUTO MAIOR
  • MAURICIO TEIXEIRA LEITE VASCONCELLOS
  • Data: 18/02/2022

  • Mostrar Resumo
  • A inferência causal lida com a estimação do efeito de intervenções específicas sobre uma variável de resposta. A estratégia de estimação envolve a comparação de unidades expostas a níveis de fatores de intervenção, com unidades não expostas, as quais formam um grupo de controle. O grupo de controle serve como base para estimar o contrafactual da resposta no grupo de tratamento. Em estudos observacionais, uma grande preocupação na construção desses grupos é garantir a comparabilidade entre eles, a partir do controle de outras características que não o próprio tratamento, as quais podem causar interferência indesejada sobre estimativas dos efeitos causais, provocando um viés sistemático. Embora a teoria por trás de estudos observacionais tenha avançado com métodos para reduzir esse viés, os dados utilizados em diversos desses estudos são obtidos por meio de amostragem probabilística complexa raramente levados em consideração no processo de estimação.  A presente dissertação considera que, além de representar uma fonte de variabilidade que deve ser incorporada na estimação de efeitos causais, planos e técnicas de estimação de amostragem podem ter um papel central para estimar efeitos causais de forma eficiente. São realizados estudos para investigar o uso de amostras balanceadas que garantam a comparabilidade entre grupos de tratamento e controle, no que diz respeito às distribuições das covariáveis, e de estimadores para a média da variável de resposta no grupo de controle baseados em calibração, a fim de melhorar as estimativas da resposta média contrafactual do grupo de tratamento. Comparam-se esses métodos com aqueles já disponíveis na literatura, por meio de simulações de Monte Carlo.



  • Mostrar Abstract
  • Causal inference deals with estimating the effects of specific interventions on a response variable. The estimation strategy involves comparing units exposed to intervention factor’s levels, forming a treatment group, with those units not exposed, forming a control group. The control group serves as the base to estimate the counterfactual response of the treatment group. In observational studies, a major concern when building such groups is to ensure their comparability, controlling for characteristics others than the treatment itself, that may cause undesired interference on causal effects estimates, leading to systematic bias. Although the theory behind observational studies has advanced with methods to reduce such bias using conditional inference, in several of these studies data is obtained through complex probability sampling designs seldom taken into account in the estimation process.  This thesis considers that, beyond representing a source of variability that must be incorporated in the analysis, sample design and estimation techniques can have a central role to estimate causal effects efficiently. Studies are carried out to investigate the use of balanced samples to ensure comparability between treatment and control groups with respect to the distributions of covariates, and the use of calibration estimates for the control group average response, improving estimates of the average counterfactual treatment response. The methods are compared with those already available in the literature, via Monte Carlo simulation.

5
  • PAULO RICARDO PEIXOTO DE ALENCAR FILHO
  • Amostragem Inversa de Bernoulli e Aplicações

  • Orientador : CRISTIANO FERRAZ
  • MEMBROS DA BANCA :
  • CRISTIANO FERRAZ
  • FERNANDA DE BASTIANI
  • PEDRO LUIS DO NASCIMENTO SILVA
  • Data: 18/02/2022

  • Mostrar Resumo
  • A ausência de uma listagem, ou cadastro, que identifique e dê acesso aos elementos da população-alvo é uma das adversidades mais recorrentes enfrentadas em levantamentos amostrais.  Quando cadastros estão disponíveis, não raro necessitam de atualização de cobertura para serem utilizados. Quando os elementos da população estão agrupados em conglomerados, o desafio recai com frequência na ausência ou desatualização de listagens de elementos dentro de cada conglomerado.  Nesta dissertação, o plano de amostragem inversa de Bernoulli é apresentado, suas propriedades estatísticas discutidas, e o potencial de seu uso no segundo estágio de planos amostrais de dois estágios, para selecionar a amostra durante o processo de atualização do cadastro, investigado. O desempenho de planos em dois estágios combinando o uso de Amostragem de Pareto ou Amostragem Sequencial de Poisson no primeiro estágio, com Amostragem Inversa de Bernoulli ou Amostragem Sistemática no segundo estágio, é estudado através de um experimento computacional de Monte Carlo utilizando dados da Pesquisa Sorológica Continuar Cuidando, realizada no Estado da Paraíba, para monitoramento da epidemia de COVID-19.


  • Mostrar Abstract
  • The absence of a listing frame that identify and provides access to the elements of a target-population is one of the most recurrent adversities faced by sampling surveys. When sample frames are available not seldom, they need to be updated to be used in practice. When the elements of a target-population are grouped in clusters, the challenge very often rely on the non-existence or the outdating of existing listing frame of elements within clusters. In this Thesis the Inverse Bernoulli Sampling design is presented, its statistical properties discussed and its potential use in the second stage of two-stage sampling designs, to select a sample at the same time an updating screening process is carried out, is investigated. The performance of two-stage designs combining Pareto Sampling or Sequential Poisson sampling in the first stage, with Inverse Bernoulli Sampling or Systematic Sampling in the second stage, is studied by a computational Monte Carlo experiment using data from the serological Survey Sample Continuar Cuidando, carried out in the Brazilian state of Paraiba, to monitor the COVID-19 epidemics.

6
  • THOMÁS FREUD DE MORAIS GONÇALVES
  • Acerca do Processo-Bell-Touchard: proposta de um processo de contagem baseado na distribuição Bell-Touchard

  • Orientador : PABLO MARTIN RODRIGUEZ
  • MEMBROS DA BANCA :
  • PABLO MARTIN RODRIGUEZ
  • ÉLCIO LEBENSZTAYN
  • VALDIVINO VARGAS JÚNIOR
  • Data: 22/02/2022

  • Mostrar Resumo
  • Uma das limitações do processo Poisson é a hipótese de saltos unicamente unitários em intervalos infinitesimais. Todavia essa limitação é contornada pelo processo Poisson composto. Entretanto, em muitos casos a distribuição de probabilidade dos incrementos não tem forma conhecida no processo Poisson composto, limitando sua modelagem ao uso de funções geradoras de probabilidades ou técnicas numéricas e simulações. Neste trabalho, propomos um novo processo de contagem baseado na distribuição Bell-Touchard, denominado processo Bell-Touchard. Entre suas propriedades, verificamos que o processo é membro da família de processos Poisson compostos e Poisson múltiplos e que também é fechado para convolução e decomposição. Mostramos que o processo decorrente da composição de processos Poisson é Bell-Touchard. Apresentamos duas generalizações, o processo Bell-Touchard composto e o processo Bell-Touchard não homogêneo, mostrando que este último pode ser obtido pela composição de um processo Poisson não homogêneo em um processo Poisson homogêneo. Ademais, apresentamos uma estratégia para simulação do novo processo, bem como uma aplicação em teoria da ruína, mediante uma modificação do processo Cramér-Lundberg


  • Mostrar Abstract
  • Uma das limitações do processo Poisson é a hipótese de saltos unicamente unitários em intervalos infinitesimais. Todavia essa limitação é contornada pelo processo Poisson composto. Entretanto, em muitos casos a distribuição de probabilidade dos incrementos não tem forma conhecida no processo Poisson composto, limitando sua modelagem ao uso de funções geradoras de probabilidades ou técnicas numéricas e simulações. Neste trabalho, propomos um novo processo de contagem baseado na distribuição Bell-Touchard, denominado processo Bell-Touchard. Entre suas propriedades, verificamos que o processo é membro da família de processos Poisson compostos e Poisson múltiplos e que também é fechado para convolução e decomposição. Mostramos que o processo decorrente da composição de processos Poisson é Bell-Touchard. Apresentamos duas generalizações, o processo Bell-Touchard composto e o processo Bell-Touchard não homogêneo, mostrando que este último pode ser obtido pela composição de um processo Poisson não homogêneo em um processo Poisson homogêneo. Ademais, apresentamos uma estratégia para simulação do novo processo, bem como uma aplicação em teoria da ruína, mediante uma modificação do processo Cramér-Lundberg

7
  • DIEGO DA SILVA SANTOS
  • MODELOS DE REGULARIZAÇÃO COM IMPUTAÇÃO E CURVAS DE DECISÃO APLICADOS A DADOS DE MEDICINA

  • Orientador : PABLO MARTIN RODRIGUEZ
  • MEMBROS DA BANCA :
  • PABLO MARTIN RODRIGUEZ
  • FLORENCIA GRACIELA LEONARDI
  • TATIANA ANDREA BENAGLIA CARVALHO
  • Data: 22/02/2022

  • Mostrar Resumo
  • Na análise estatística é comum a presença de dados faltantes em muitas aplicações e estudos em inúmeras áreas com especial ênfase a área da saúde. Estudos foram sendo desenvolvidos ao longo da segunda metade do século XX para contornar o problema de dados faltantes dos quais destacam-se os trabalhos de Rubin (1988) e Schafer (1997) em imputação de dados. Além do tratamento do banco de dados e preenchimento dos dados para utilização das técnicas estatísticas de modelagem que em sua grande maioria são restritas a dados completos, outra questão que se levanta após o tratamento dos dados é a técnica estatística mais adequada a ser utilizada para o determinado objetivo inferencial. Na área de análise de regressão os modelos com regularização vem sendo cada vez mais utilizados em problemas de alta dimensão onde tem-se muitas covariáveis a serem estimadas ou problemas de multicolinearidade. Esta dissertação aborda o problema da modelagem de regressão regularizada aplicada aos dados imputados, em especial ao modelo de regressão LASSO para dados multi-imputados conhecida como MI-LASSO (Chen e Wang, 2013), também utiliza-se a técnica de validação cruzada aninhada (Bates, Hastie e Tibshirani, 2021) para obtenção da variância empírica de validação cruzada e intervalos de confiança mais largos para o erro de validação dentro da amostra envolvidos nos modelos de regularização. Desta forma, é proposta uma abordagem utilizando a imputação múltipla através do Bootstrap Bayesiano atrelado ao modelo LASSO com validação cruzada aninhada para correção da estimativa de variância da validação cruzada usual, e busca-se o modelo com melhor poder de predição (ou classificação para problemas envolvendo modelo logístico com variável resposta de interesse dicotômica). Por fim, utiliza-se da metodologia de curvas de decisão proposta por Vickers e Elkin (2006) para a aplicação em dados de Covid-19 com o intuito de propor uma abordagem correta na tomada de decisões de profissionais da saúde em problemas de diagnóstico clínico na presença de dados faltantes.


  • Mostrar Abstract
  • Na análise estatística é comum a presença de dados faltantes em muitas aplicações e estudos em inúmeras áreas com especial ênfase a área da saúde. Estudos foram sendo desenvolvidos ao longo da segunda metade do século XX para contornar o problema de dados faltantes dos quais destacam-se os trabalhos de Rubin (1988) e Schafer (1997) em imputação de dados. Além do tratamento do banco de dados e preenchimento dos dados para utilização das técnicas estatísticas de modelagem que em sua grande maioria são restritas a dados completos, outra questão que se levanta após o tratamento dos dados é a técnica estatística mais adequada a ser utilizada para o determinado objetivo inferencial. Na área de análise de regressão os modelos com regularização vem sendo cada vez mais utilizados em problemas de alta dimensão onde tem-se muitas covariáveis a serem estimadas ou problemas de multicolinearidade. Esta dissertação aborda o problema da modelagem de regressão regularizada aplicada aos dados imputados, em especial ao modelo de regressão LASSO para dados multi-imputados conhecida como MI-LASSO (Chen e Wang, 2013), também utiliza-se a técnica de validação cruzada aninhada (Bates, Hastie e Tibshirani, 2021) para obtenção da variância empírica de validação cruzada e intervalos de confiança mais largos para o erro de validação dentro da amostra envolvidos nos modelos de regularização. Desta forma, é proposta uma abordagem utilizando a imputação múltipla através do Bootstrap Bayesiano atrelado ao modelo LASSO com validação cruzada aninhada para correção da estimativa de variância da validação cruzada usual, e busca-se o modelo com melhor poder de predição (ou classificação para problemas envolvendo modelo logístico com variável resposta de interesse dicotômica). Por fim, utiliza-se da metodologia de curvas de decisão proposta por Vickers e Elkin (2006) para a aplicação em dados de Covid-19 com o intuito de propor uma abordagem correta na tomada de decisões de profissionais da saúde em problemas de diagnóstico clínico na presença de dados faltantes.

8
  • WILLAMS BATISTA FERREIRA DA SILVA
  • Processo ARMA Gama Generalizado Aplicado a Imagens de Amplitude e Intensidade SAR

  • Orientador : ABRAAO DAVID COSTA DO NASCIMENTO
  • MEMBROS DA BANCA :
  • ABRAAO DAVID COSTA DO NASCIMENTO
  • FERNANDA VITAL DE PAULA
  • LEANDRO CHAVES REGO
  • Data: 25/02/2022

  • Mostrar Resumo
  • Os problemas de sensoriamento remoto são resolvidos usando imagens de radar de aber-tura sintética (SAR). Porém, essas imagens sofrem com o ruído speckle, que exige uma certa modelagem de seus atributos (como intensidade e amplitude). É comum trabalhar com abordagens separadas para dados de intensidade e amplitude. Neste trabalho, propomos um novo processo autoregressivo de médias móveis (ARMA) com distribuição marginal Gama Generalizada (GΓ), denominado GΓ-ARMA e conseguimos modelar ambos os atributos com o mesmo modelo. Derivamos algumas de suas propriedades matemáticas: expressões de forma fechada baseadas em momento, função escore e matriz de informação de Fisher. Um procedimento para obter estimativas de máxima verossimilhança dos parâmetros GΓ-ARMA é fornecido e seu desempenho é quantificado e discutido usando experimentos de Monte Carlo, considerando (entre outras) várias funções de ligação. Por fim, a proposta é aplicada a dados reais obtidos deimagens das regiões de Munique e São Francisco. Os resultados demonstram que GΓ-ARMA descreve as vizinhanças dos pixels da imagem SAR melhor do que o processo  Γ-ARMA (que é uma referência para dados positivos assimétricos). Ao modelar raios de pixel reais, nossaproposta supera os modelos GI0 e Γ-ARMA.


  • Mostrar Abstract
  • Os problemas de sensoriamento remoto são resolvidos usando imagens de radar de aber-tura sintética (SAR). Porém, essas imagens sofrem com o ruído speckle, que exige uma certa modelagem de seus atributos (como intensidade e amplitude). É comum trabalhar com abordagens separadas para dados de intensidade e amplitude. Neste trabalho, propomos um novo processo autoregressivo de médias móveis (ARMA) com distribuição marginal Gama Generalizada (GΓ), denominado GΓ-ARMA e conseguimos modelar ambos os atributos com o mesmo modelo. Derivamos algumas de suas propriedades matemáticas: expressões de forma fechada baseadas em momento, função escore e matriz de informação de Fisher. Um procedimento para obter estimativas de máxima verossimilhança dos parâmetros GΓ-ARMA é fornecido e seu desempenho é quantificado e discutido usando experimentos de Monte Carlo, considerando (entre outras) várias funções de ligação. Por fim, a proposta é aplicada a dados reais obtidos deimagens das regiões de Munique e São Francisco. Os resultados demonstram que GΓ-ARMA descreve as vizinhanças dos pixels da imagem SAR melhor do que o processo  Γ-ARMA (que é uma referência para dados positivos assimétricos). Ao modelar raios de pixel reais, nossaproposta supera os modelos GI0 e Γ-ARMA.

9
  • NOEMIR DOS SANTOS SOUSA
  • Associação em Tabelas de Contingência de Dupla Entrada com Dados Amostrais Complexos de COVID-19.

  • Orientador : CRISTIANO FERRAZ
  • MEMBROS DA BANCA :
  • ALEX DIAS RAMOS
  • CRISTIANO FERRAZ
  • HEMILIO FERNANDES CAMPOS COELHO
  • Data: 29/06/2022

  • Mostrar Resumo
  • A associação em tabelas de contingência é averiguada através de estudos que analisam a independência das variáveis ou a homogeneidade, através de testes hipóteses. Nesta dissertação são efetuadas análises com dados amostrais complexos, que são os que possuem: estratificação, conglomeração e/ou probabilidade proporcional a uma medida de tamanho. Utilizamos os dados de COVID-19 da Pesquisa Sorológica Continuar Cuidando, do estado da Paraíba, com o objetivo de apresentar os testes de Rao-Scott e de Wald para investigar a associação em tabelas de contingência de dupla entrada, enfatizando a importância de considerar corretamente o plano amostral.


  • Mostrar Abstract
  • A associação em tabelas de contingência é averiguada através de estudos que analisam a independência das variáveis ou a homogeneidade, através de testes hipóteses. Nesta dissertação são efetuadas análises com dados amostrais complexos, que são os que possuem: estratificação, conglomeração e/ou probabilidade proporcional a uma medida de tamanho. Utilizamos os dados de COVID-19 da Pesquisa Sorológica Continuar Cuidando, do estado da Paraíba, com o objetivo de apresentar os testes de Rao-Scott e de Wald para investigar a associação em tabelas de contingência de dupla entrada, enfatizando a importância de considerar corretamente o plano amostral.

Teses
1
  • FERNANDA CLOTILDE DA SILVA
  • Um critério de Seleção Para Modelos Beta Baseado no Trade-off Predição e Variabilidade

  • Orientador : PATRICIA LEONE ESPINHEIRA OSPINA
  • MEMBROS DA BANCA :
  • PATRICIA LEONE ESPINHEIRA OSPINA
  • FRANCISCO CRIBARI NETO
  • RAYDONAL OSPINA MARTINEZ
  • MICHEL H. MONTORIL
  • RAFAEL IZBICKI
  • Data: 16/02/2022

  • Mostrar Resumo
  • Muitas vezes surge a necessidade de estudar dados cujos valores pertencem ao intervalo (0; 1), e quando o interesse consiste em ajustar modelos de regressão para tais dados, o uso do modelo de regressão normal linear pode fornecer valores mal ajustados, excedendo os limites do intervalo. Nesse caso, podemos optar pelo uso do modelo de regressão beta, proposto por Ferrari e Cribari-Neto (2004), que tem se mostrado uma ferramenta muito eficiente. Tal modelo se baseia em supor que a variável resposta segue uma distribuição beta, assumindo uma nova parametrização, indexando a média da resposta e um parâmetro de precisão. O uso desse modelo tem crescido consideravelmente nos últimos anos, e diversos trabalhos têm sido desenvolvidos, propondo algumas extensões, como é possível ver em Smithson e Verkuilen (2006), Simas et al. (2010), Carrasco et al. (2014), entre outros. Além das extensões do modelo beta, alguns métodos de análise de diagnóstico também foram desenvolvidos para essa classe de modelos, buscando verificar a adequabilidade do ajuste, identificando possíveis afastamentos das suposições feitas para o modelo. Entretanto, o uso das técnicas de diagnóstico normalmente segue após a escolha de um conjunto de covariáveis consideradas relevantes para o modelo, esse procedimento é conhecido como seleção de modelos, e muitos métodos e critérios têm sido desenvolvidos para sua realização, dentre eles destacam-se os pseudos R^2, que avaliam a proporção de variação da variável resposta que pode ser explicada pelo modelo ajustado, essas medidas foram estudadas e implementadas por Bayer e Cribari-Neto (2017) para a classe de modelos betas. Além dessas quantidades, dispomos também de mais um critério para selecionar modelos, denotado por P^2, que identifica a habilidade do modelo em predizer bons valores para a variável resposta, com base na estatística PRESS (Predictive Residual Sum of Squares), proposta por Allen (1971) e introduzida aos modelos beta por Espinheira et al. (2019). Uma vez que a definição de alguns critérios de seleção tem como interesse verificar o poder de explicação da variabilidade da resposta, ou o poder de predição dos valores desta variável, esse trabalho, tem como objetivo apresentar mais uma medida para selecionar modelos de regressão beta, no entanto, considerando ambos os interesses, isto é, desenvolvemos uma medida que considera tanto a quantidade de variabilidade explicada pelo modelo como também a predição de bons valores. Avaliamos o desempenho da medida proposta por meio de estudos de simulação de Monte Carlo, considerando diversos cenários, também aplicamos bancos de dados reais que reafirmam a eficácia da nossa medida.


  • Mostrar Abstract
  • Muitas vezes surge a necessidade de estudar dados cujos valores pertencem ao intervalo (0; 1), e quando o interesse consiste em ajustar modelos de regressão para tais dados, o uso do modelo de regressão normal linear pode fornecer valores mal ajustados, excedendo os limites do intervalo. Nesse caso, podemos optar pelo uso do modelo de regressão beta, proposto por Ferrari e Cribari-Neto (2004), que tem se mostrado uma ferramenta muito eficiente. Tal modelo se baseia em supor que a variável resposta segue uma distribuição beta, assumindo uma nova parametrização, indexando a média da resposta e um parâmetro de precisão. O uso desse modelo tem crescido consideravelmente nos últimos anos, e diversos trabalhos têm sido desenvolvidos, propondo algumas extensões, como é possível ver em Smithson e Verkuilen (2006), Simas et al. (2010), Carrasco et al. (2014), entre outros. Além das extensões do modelo beta, alguns métodos de análise de diagnóstico também foram desenvolvidos para essa classe de modelos, buscando verificar a adequabilidade do ajuste, identificando possíveis afastamentos das suposições feitas para o modelo. Entretanto, o uso das técnicas de diagnóstico normalmente segue após a escolha de um conjunto de covariáveis consideradas relevantes para o modelo, esse procedimento é conhecido como seleção de modelos, e muitos métodos e critérios têm sido desenvolvidos para sua realização, dentre eles destacam-se os pseudos R^2, que avaliam a proporção de variação da variável resposta que pode ser explicada pelo modelo ajustado, essas medidas foram estudadas e implementadas por Bayer e Cribari-Neto (2017) para a classe de modelos betas. Além dessas quantidades, dispomos também de mais um critério para selecionar modelos, denotado por P^2, que identifica a habilidade do modelo em predizer bons valores para a variável resposta, com base na estatística PRESS (Predictive Residual Sum of Squares), proposta por Allen (1971) e introduzida aos modelos beta por Espinheira et al. (2019). Uma vez que a definição de alguns critérios de seleção tem como interesse verificar o poder de explicação da variabilidade da resposta, ou o poder de predição dos valores desta variável, esse trabalho, tem como objetivo apresentar mais uma medida para selecionar modelos de regressão beta, no entanto, considerando ambos os interesses, isto é, desenvolvemos uma medida que considera tanto a quantidade de variabilidade explicada pelo modelo como também a predição de bons valores. Avaliamos o desempenho da medida proposta por meio de estudos de simulação de Monte Carlo, considerando diversos cenários, também aplicamos bancos de dados reais que reafirmam a eficácia da nossa medida.

2
  • VINICIUS TEODORO SCHER
  • Essays on Double Bounded Time Series Analysis

  • Orientador : FRANCISCO CRIBARI NETO
  • MEMBROS DA BANCA :
  • FRANCISCO CRIBARI NETO
  • PATRICIA LEONE ESPINHEIRA OSPINA
  • RAYDONAL OSPINA MARTINEZ
  • AIRLANE PEREIRA ALENCAR
  • PEDRO ALBERTO MORETTIN
  • Data: 18/02/2022

  • Mostrar Resumo
  • Duas etapas importantes na modelagem de séries temporais são seleção de modelos e análise de diagnóstico. No que diz respeito à análise de diagnóstico, nós abordamos a realização de inferências via testes portmanteau utilizando séries temporais que assumem valores no intervalo da unitário padrão. Nosso foco reside na classe de modelos beta autorregressivos e de médias móveis (βARMA). Em particular, desejamos testar a adequacidade de tais modelos. Nós consideramos diversos testes que foram propostos para modelos de séries temporais gaussianas e dois novos testes recentemente introduzidos na literatura. Derivamos a distribuição nula assintótica das duas novas estatísticas de teste em dois cenários diferentes, a saber: quando os testes são aplicados a uma série temporal observada e quando são aplicados a resíduos de um modelo βARMA. Vale a pena notar que nossos resultados implicam a validade assintótica dos testes portmanteau padrão na classe de modelos βARMA que são, sob hipótese nula, assintoticamente equivalente aos dois novos testes. Usamos simulação de Monte Carlo para avaliar os méritos relativos dos diferentes testes portmanteau quando usados conjuntamente com o modelo βARMA. Os resultados de simulação que apresentamos mostram que os novos testes são tipicamente mais poderosos que um teste bem conhecido, cuja estatística de teste também é baseada em autocorrelações parciais dos resíduos. No geral, os dois novos testes funcionam muito bem. Adicionalmente, modelamos a dinâmica da proporção de energia hidrelétrica armazenada no sul do Brasil. Os resultados mostram que o modelo βARMA supera três modelos alternativos e um algoritmo de suavização exponencial. Num segundo estudo, avaliamos a eficácia de estratégias de seleção de modelos com base em diferentes critérios de informação no modelo βARMA. A evidência numérica para modelos autorregressivos, de médias móveis e mistos (autorregressivos e de médias móveis) mostra que, em geral, um critério de seleção de modelos baseado em bootstrap apresenta o melhor desempenho. Nossa aplicação empírica mostra que as previsões mais precisas são obtidas usando seleção de modelo baseada em bootstrap.


  • Mostrar Abstract
  • Two important steps in time series analysis are model selection and diagnostic analysis. We address the issue of performing diagnostic analysis through portmanteau testing inferences using time series data that assume values in the standard unit interval. Our focus lies in the class of beta autoregressive moving average (βARMA) models. In particular, we wish to test the goodness-of-fit of such models. We consider several testing criteria that have been proposed for Gaussian time series models and two new tests that were recently introduced in the literature. We derive the asymptotic null distribution of the two new test statistics in two different scenarios, namely: when the tests are applied to an observed time series and when they are applied to residuals from a fitted βARMA model. It is worth noticing that our results imply the asymptotic validity of standard portmanteau tests in the class of ARMA models that are, under the null hypothesis, asymptotically equivalent to the two new tests. We use Monte Carlo simulation to assess the relative merits of the different portmanteau tests when used with fitted βARMA. The simulation results we present show that the new tests are typically more powerful than a well known test whose test statistic is also based on residual partial autocorrelations. Overall, the two new tests perform quite well. We also model the dynamics of the proportion of stocked hydroelectric energy in South of Brazil. The results show that the βARMA model outperforms three alternative models and an exponential smoothing algorithm. We also consider the issue of performing model selection with double bounded time series. We evaluate the effectiveness of βARMA model selection strategies based on different information criteria. The numerical evidence for autoregressive, moving average, and mixed autoregressive and moving average models shows that, overall, a bootstrap-based model selection criterion is the best performer. An empirical application which we present and discuss shows that the most accurate out-of-sample forecasts are obtained using bootstrap-based model selection.

3
  • ANA CRISTINA GUEDES PEREIRA
  • ESSAYS ON REGRESSION MODELS FOR DOUBLE BOUNDED AND EXTREME-VALUE RANDOM VARIABLES: IMPROVED TESTING INFERENCES AND EMPIRICAL ANALYSES

  • Orientador : FRANCISCO CRIBARI NETO
  • MEMBROS DA BANCA :
  • FRANCISCO CRIBARI NETO
  • FERNANDA DE BASTIANI
  • RAYDONAL OSPINA MARTINEZ
  • FÁBIO MARIANO BAYER
  • GILBERTO ALVARENGA PAULA
  • Data: 21/02/2022

  • Mostrar Resumo
  • Regressões beta são comumente usadas com respostas que assumem valores no intervalo de unidade padrão, tais como taxas, proporções e índices de concentração. Inferências de teste de hipóteses sobre os parâmetros do modelo são normalmente realizadas utilizando o teste de razão de verossimilhanças. Tal teste fornece inferências precisas quando o tamanho da amostra é grande, mas pode conduzir a conclusões imprecisas quando o número de observações é pequeno. Portanto, é importante desenvolver testes alternativos com comportamento superior em pequenas amostras. Derivamos o fator de correção de Bartlett para o teste da razão de verossimilhanças sob a formulação mais geral do modelo de regressão beta, ou seja, sob precisão variável. O modelo contém dois submodelos, um para a resposta média e outro para o parâmetro de precisão. Nosso interesse reside na realização de testes sobre os parâmetros que indexam os dois submodelos. Usamos três estatísticas de teste da razão de verossimilhanças corrigidas por Bartlett que devem apresentar desempenho superior quando o tamanho da amostra é pequeno relativamente ao teste usual. Apresentamos resultados de simulações de Monte Carlo sobre os comportamentos em pequenas amostras dos testes corrigidos por Bartlett, do teste da razão de verossimilhanças usual e de dois testes melhorados que se baseiam em uma abordagem alternativa. A evidência numérica apresentada mostra que um dos testes corrigidos por Bartlett tipicamente conduz a inferências muito precisas mesmo quando o tamanho da amostra é muito pequeno. Uma aplicação empírica relacionada a biometria comportamental é apresentada e discutida.Também consideramos a realização de inferências de teste de hipóteses sobre os parâmetros que indexam um modelo geral de regressão de valor extremo. O modelo contém submodelos separados para os parâmetros de localização e dispersão e permite não linearidades. Com base em tal modelo, é possível avaliar os impactos de diferentes covariáveis sobre a ocorrência de eventos extremos. As inferências de teste são frequentemente baseadas no teste da razão de verossimilhanças, incluindo aquelas realizadas para determinar quais variáveis independentes devem ser incluídas no modelo. Tal teste utiliza valores críticos assintóticos e pode apresentar distorções de tamanho apreciáveis quando o número de observações é pequeno. Em particular, ele tende a ser liberal, ou seja, tipicamente fornece taxas de erro do tipo I que superam o nível de significância selecionado pelo usuário. Derivamos o fator de correção de Bartlett para o teste de razão de verossimilhanças e o utilizamos para definir três estatísticas de teste corrigidas. Embora os testes corrigidos também utilizem valores críticos assintóticos, suas distorções de tamanho convergem para zero mais rapidamente do que as do teste não modificado e, portanto, os novos testes tendem a produzir melhor controle da frequência de erro do tipo I. São apresentados e discutidos resultados de simulações Monte Carlo e também uma aplicação empírica que utiliza dados relacionados à pandemia de Covid-19.


  • Mostrar Abstract
  • Beta regressions are commonly used with responses that assume values in the standard unit interval, such as rates, proportions and concentration indices. Hypothesis testing inferences on the model parameters are typically performed using the likelihood ratio test. It delivers accurate inferences when the sample size is large, but can otherwise lead to unreliable conclusions. It is thus important to develop alternative tests with superior finite sample behavior. We derive the Bartlett correction to the likelihood ratio test under the more general formulation of the beta regression model, i.e.\ under varying precision. The model contains two submodels, one for the mean response and a separate one for the precision parameter. Our interest lies in performing testing inferences on the parameters that index both submodels. We use three Bartlett-corrected likelihood ratio test statistics that are expected to yield superior performance when the sample size is small. We present Monte Carlo simulation evidence on the finite sample behavior of the Bartlett-corrected tests relative to the standard likelihood ratio test and to two improved tests that are based on an alternative approach. The numerical evidence shows that one of the Bartlett-corrected typically delivers accurate inferences even when the sample is quite small. An empirical application related to behavioral biometrics is presented and discussed. We also address the issue of performing testing inference in a general extreme value regression model when the sample size issmall. The model contains separate submodels for the location and dispersion parameters. It allows practitioners to investigate the impacts of different covariates on extreme events. Testing inferences are frequently based on the likelihood test, including those carried out to determine which independent variables are to be included into the model. The test is based on asymptotic critical values and may be considerably size-distorted when the number of data points is small. In particular, it tends to be liberal, i.e., it yields rates of type I errors that surpass the test's nominal size. We derive the Bartlett correction to the likelihood ratio test and use it to define three Bartlett-corrected test statistics. Even though these tests also use asymptotic critical values, their size distortions vanish faster than that of the unmodified test and thus they yield better control of the type I error frequency. Extensive Monte Carlo evidence and an empirical application that uses Covid-19 related data are presented and discussed.

4
  • CÉSAR DIOGO BEZERRA DA SILVA
  • Novos Paradigmas para o Processo de Stavskaya

  • Orientador : ALEX DIAS RAMOS
  • MEMBROS DA BANCA :
  • ALEX DIAS RAMOS
  • FABIO PRATES MACHADO
  • GETULIO JOSE AMORIM DO AMARAL
  • MARIA EULALIA VARES
  • PABLO MARTIN RODRIGUEZ
  • Data: 21/02/2022

  • Mostrar Resumo
  • O processo de Stavskaya, o qual denotaremo Stav por simplicidade, é uma versão a tempo discreto do conhecido processo de contato. Neste trabalho, revisitamos o processo de Stavskaya com comprimento variável, um sistema de partículas interagentes unidimensional que difere dos tradicionalmente estudados. Nele, as partículas podem aparecer ou desaparecer durante a evolução do sistema. Neste sistema, cada partícula assume estado mais ou menos e evolui da seguinte forma: entre duas partículas vizinhas, nasce uma partícula no estado mais com probabilidade β, independente do que ocorre nos outros lugares. Sempre que uma partícula no estado mais é a vizinha mais próxima a direita de uma partícula no estado menos, então este mais desaparece com probabilidade α. Diferente de Stav, foi mostrado que esta versão variável não apresenta o mesmo tipo de transição de fase. Mais especificamente, o processo variável sempre converge para a mesma delta medida (ergódico), independente dos parâmetros fixados. Em nosso estudo, estabelecemos e analisamos a existência de um outro tipo de transição de fase. Além de termos explorado outros aspectos da sua dinâmica.

    No processo de Stavskaya clássico, em cada passo de tempo, dois operadores atuam: o primeiro determinístico, D, seguido por um aleatório. Tomamos um processo de difusão, descrito por uma equação diferencial parcial. Mostramos que sua equação de diferença finita, a qual denotamos por Difus, é levada via ultradiscretização em D. Motivados por essa correspondência, definimos o processo de Stavskaya de difusão, denotada PSD por simplicidade. Assim como o Stav, o PSD evolui em tempo discreto, da seguinte forma: Em cada passo de tempo discreto, dois operadores atuam, primeiro Difus seguido de um outro aleatório. Diferente de Stav, cada partícula do PSD assume valor num conjunto não enumerável. Mais especificamente, ele atua no conjunto de medidas de probabilidade em [1,∞)Z. Verificamos se o PSD e o processo de Stavskaya são qualitativamente equivalentes, por exemplo, se há uma transição de fase e se propriedades, como: monotonicidade e linearidade são mantidas. Em adição, desenvolvemos, para o processo de stavskaya de comprimento variável e o PSD, alguns estudos numéricos.


  • Mostrar Abstract
  • Revisitamos o processo de Stavskaya com comprimento variável,  um sistema de partículas interagentes unidimensional que difere dos tradicionalmente estudados. 
    Nele, as partículas podem aparecer ou desaparecer durante a evolução do sistema . Ele foi  inspirado no clássico processo de Stavskaya, que é uma versão a tempo discreto do bem conhecido  processo de contato. É provado que ambos processos apresentam um tipo de transição de fase. 
    Foi mostrado que para a versão variável destes processos, essa transição de fase não existe. Mais especificamente, o processo é sempre ergódico. Em nosso estudo, estabelecemos e  analisamos a existência de um outro tipo de transição de fase. Além de explorar outros  aspectos da sua dinâmica. No sistema que estamos estudando, cada partícula assume  o estado mais ou menos. Entre duas partículas, nasce uma partícula mais com  probabilidade β independente do que ocorre nos outros lugares. Sempre que uma partícula mais é a  vizinha mais próxima a direita de uma partícula menos, então ela desaparece com probabilidade α.  Desenvolvemos alguns estudos computacionais.
5
  • MARIA IONERIS OLIVEIRA SILVA
  • Modelos de Tempo de Vida Acelerado Birnbaum-Saunders Multivariados

  • Orientador : FRANCISCO JOSE DE AZEVEDO CYSNEIROS
  • MEMBROS DA BANCA :
  • FRANCISCO JOSE DE AZEVEDO CYSNEIROS
  • ALINE BARBOSA TSUYUGUCHI
  • ABRAAO DAVID COSTA DO NASCIMENTO
  • JUVENCIO SANTOS NOBRE
  • FILIDOR EDILFONSO VILCA LABRA
  • Data: 21/02/2022

  • Mostrar Resumo
  • Modelos de regressão Birnbaum-Saunders têm sido utilizados com frequência nos últimos anos. Uma das principais premissas nos modelos de regressão tradicionais é o pressuposto de independência entre as observações. No entanto, em alguns casos, essa suposição não é válida, como no caso de eventos observados no mesmo indivíduo. A este respeito, modelos de regressão multivariados com estrutura de dependência são uma possível alternativa para modelagem de dados deste tipo. Dessa forma, neste trabalho, introduzimos inicialmente o modelo de regressão Birnbaum-Saunders bivariado com estrutura de dependência modelada através da abordagem de fragilidade. Posteriormente, propomos uma nova distribuição Birnbaum-Saunders multivariada e derivamos algumas propriedades da mesma. Propomos uma extensão do modelo bivariado acima mencionado, isto é, desenvolvemos um novo modelo de regressão Birnbaum-Saunders multivariado. Alguns estudos de simulação foram desenvolvidos para avaliar o desempenho dos estimadores propostos. Finalmente, desenvolvemos o modelo Birnbaum- Saunders generalizado multivariado em que, particularmente, propomos o modelo t de Student Birnbaum-Saunders multivariado. Utilizamos o método de máxima verossimilhança para estimar os parâmetros dos modelos propostos, bem como, derivamos alguns resíduos para avaliar o ajuste dos mesmos. Propomos alguns resíduos e derivamos medidas de diagnósticos sob o enfoque de influência local para os modelos propostos. Para ilustrar a metodologia desenvolvida, no que se refere ao modelo bivariado,utilizamos o conjunto de dados reais que reporta os tempos de recorrência de infecções de 38 pacientes renais usando uma máquina de diálise portátil. No caso do modelo Birnbaum-Saunders multivariado, consideramos dois conjuntos de dados reais: o primeiro conjunto de dados retrata o acompanhamento realizado por pesquisadores da escola de odontologia da universidade da Carolina do Norte sobre o crescimento das crianças (16 meninos, 11 meninas) com idade entre 8 e 14 anos; o segundo conjunto de dados reporta a duração do tempo de exercício necessário até provocar a angina em 21 pacientes com cardiopatia.


  • Mostrar Abstract
  • Modelos de regressão de Birnbaum-Saunders têm sido utilizados com frequência nos últimos anos. É bem conhecido que modelos multivariados desempenham um papel importante na modelagem de dados correlacionados. Dessa forma, neste trabalho, introduzimos inicialmente o modelo de regressão Birnbaum-Saunders bivariado e através do método da máxima verossimilhança estimamos os parâmetros do modelo. Derivamos resíduos e medidas de diagnósticos sob o enfoque de influência local. Posteriormente, propomos uma nova distribuição Birnbaum-Saunders multivariada e derivamos algumas propriedades da mesma. Propomos um novo modelo de regressão Birnbaum-Saunders multivariado, em que o método de máxima verossimilhança é usado para estimar os parâmetros, bem como, derivamos alguns resíduos para avaliar o ajuste do modelo proposto. Alguns estudos de simulação foram desenvolvidos para avaliar o desempenho dos estimadores e dos resíduos supracitados. Realizamos uma análise de diagnóstico para este modelo e aplicamos a metodologia estudada a conjuntos de dados reais.

6
  • JOSÉ IRAPONIL COSTA LIMA
  • Diagnóstico por influência no modelo de regressão Birnbaum-saunders valor extremo
  • Orientador : RAYDONAL OSPINA MARTINEZ
  • MEMBROS DA BANCA :
  • RAYDONAL OSPINA MARTINEZ
  • FRANCYELLE DE LIMA MEDINA
  • KLAUS LEITE PINTO VASCONCELLOS
  • ANTONIO MURILO SANTOS MACEDO
  • CAROLINA IVONNE MARCHANT FUENTES
  • Data: 23/02/2022

  • Mostrar Resumo
  • A implementação de ações de diagnóstico baseadas em avaliação de influência local é uma etapa relevante em uma análise estatística cuja modelagem é constituída por uma estrutura de regressão, pois possibilita a identificação de observações que interferem de forma desproporcional nos resultados inferências quando pequenas perturbações são impostas sobre as mesmas. O objetivo do nosso trabalho é desenvolver análise de diagnóstico por meio de influência local sobre o modelo de regressão Birnbaum-Saunders Valor Extremo (EVBS). Mais precisamente, obter expressões que possibilitam o cálculo das curvaturas normal e conforme associadas a diferentes esquemas de perturbações: ponderação de casos, perturbação na resposta e perturbação em uma variável explicativa. Ao mesmo tempo, buscamos identificar se certas formas de perturbação são apropriadas para se perturbar o modelo de regressão EVBS (caso regular), segundo critérios estabelecidos na literatura estatística. No tocante ao modelo de regressão alvo do estudo, deduzimos algumas propriedades da função densidade de probabilidade da componente estocástica do modelo, abordarmos o problema de estimação por máxima verossimilhança e realizamos simulações de Monte Carlo com o propósito de verificar a existência de suporte empírico que corrobora com a hipótese de consistência assintótica do estimador de máxima verossimilhança (EMV) dos parâmetros. Paralelamente, derivamos uma nova família de distribuições, chamada distribuição Birnbaum-Saunders-Pareto generalizada (GPD-BS), por meio de uma mudança no núcleo da transformação que determina a BS clássica em termos da normal padrão, o qual passa a assumir uma distribuição Pareto generalizada. Ao longo do trabalho, analisamos conjuntos de dados reais de natureza meteorológica com o propósito de ilustrar a eficácia das ferramentas desenvolvidas ou exemplificar o potencial do modelo EVBS na modelagem de dados extremos.

  • Mostrar Abstract
  • A implementação de ações de diagnóstico baseadas em avaliação de influência local é uma etapa relevante em uma análise estatística cuja modelagem é constituída por uma estrutura de regressão, pois possibilita a identificação de observações que interferem de forma desproporcional nos resultados inferências quando pequenas perturbações são impostas sobre as mesmas. O objetivo do nosso trabalho é desenvolver análise de diagnóstico por meio de influência local sobre o modelo de regressão Birnbaum-Saunders Valor Extremo (EVBS). Mais precisamente, obter expressões que possibilitam o cálculo das curvaturas normal e conforme associadas a diferentes esquemas de perturbações: ponderação de casos, perturbação na resposta e perturbação em uma variável explicativa. Ao mesmo tempo, buscamos identificar se certas formas de perturbação são apropriadas para se perturbar o modelo de regressão EVBS (caso regular), segundo critérios estabelecidos na literatura estatística. No tocante ao modelo de regressão alvo do estudo, deduzimos algumas propriedades da função densidade de probabilidade da componente
    estocástica do modelo, abordarmos o problema de estimação por máxima verossimilhança e realizamos simulações de Monte Carlo com o propósito de verificar a existência de suporte empírico que corrobora com a hipótese de consistência assintótica do estimador de máxima verossimilhança (EMV) dos parâmetros.

7
  • MARCELO DOS SANTOS
  • Uma releitura inferencial e análise de diagnósticos em modelos geoestatísticos

  • Orientador : FERNANDA DE BASTIANI
  • MEMBROS DA BANCA :
  • FERNANDA DE BASTIANI
  • CRISTIANO FERRAZ
  • GETULIO JOSE AMORIM DO AMARAL
  • ORIETTA NICOLIS
  • MANUEL JESUS GALEA ROJAS
  • Data: 24/02/2022

  • Mostrar Resumo
  • O presente trabalho de tese, estuda situações em que os eventos de interesse apresentam dependência espacial entre as observações. Não obstante, estudos nesta área tenham tido notáveis avanços, técnicas relacionadas a eficiência da matriz de correlação espacial utilizada, bem como a escolha de tal, além de modelos de quasi-verossimilhança e distribuições para dados com excesso de zeros, ainda são pouco exploradas. Destarte, os modelos apresentados neste texto estão fundamentados em modelos geoestatísticos, que tem como objetivo estimar o valor de uma dada propriedade de interesse, para diferentes localizações referenciadas, condicionado a alguma função de correlação espacial entre os dados amostrados. Dito isto, desenvolvemos este trabalho em três etapas. Na primeira etapa, ancoramos na teoria das funções de base radial compactamente suportadas no intervalo [0, 1), com o objetivo de avaliar o desempenho de funções pertencentes a esta classe, quando aplicadas a modelos espaciais lineares. Para tanto, utilizamos a família de funções Wendland e a comparamos com a família Matérn, para vários valores de seus parâmetros de suavização. Paralelamente, desenvolvemos as relações entre o alcance prático e o parâmetro de suporte e, estabelecemos expressões para mensurar o índice de dependência espacial para ambas as famílias. Além disso, como técnica de diagnóstico, são desenvolvidas medidas de influência local sob diferentes esquemas de perturbação. Como critério de identificação de observações potencialmente influentes, propomos utilizar níveis de referência obtidos a partir de reamostragem Jackknife-after-Bootstrap. Na segunda etapa, propomos um novo critério para seleção da matriz de correlação espacial de trabalho, baseado no condicionamento da matriz de variância-covariância naive, a partir de modelos de quasi-verossimilhança e Equações de Estimação Generalizadas. Avaliamos a performance do método por um extenso estudo de simulações, utilizando as distribuições marginais da Normal, Poisson e Gama para dados espacialmente correlacionados. A especificação da estrutura de correlação é baseada em modelos de semivariogramas, utilizando as famílias Wendland, Matérn e modelo Esférico. Os resultados revelaram que o critério proposto resultou em um melhor desempenho em comparação com os concorrentes disponíveis na literatura, com relação às taxas de acerto da verdadeira estrutura de correlação espacial dos dados simulados. Na terceira etapa, temos como objetivo avaliar a distribuição espacial da quantidade ou ocorrência de chuva em uma dada região geográfica. Neste caso, a análise torna-se complicada devido a ocorrência de valor zero na amostra, isto é, localizações em que não ocorreu chuva no período em estudo. Assim, para acomodar o zero, propomos utilizar um modelo de mistura da distribuição degenerada em zero com a distribuição Gama, sob dados espacialmente referenciados gerando, assim, um modelo geoestatístico Gama aumentada com zero. Para acomodar a dependência espacial, incorporamos uma estrutura de quasi-verossimilhança e estimamos os parâmetros utilizando equações de estimação através do algoritmo Expectation-Solution. Além disso, sugerimos medidas para os resíduos e desenvolvemos medidas de influência local, sob os esquemas de perturbação de ponderação de casos, variável resposta e nas covariáveis. Por fim, acrescentamos que em todas as etapas um exemplo numérico foi analisado utilizando conjuntos de dados reais. Em tempo, destacamos que, embora cada etapa esteja relacionada pelo fato de estarem sob o enfoque da análise e inferência em modelos geoestatísticos, cada um dos capítulos poderá ser lido de forma independente.

  • Mostrar Abstract
  • Utilizando a teoria das funções de base radias compactamente suportadas, propomos inferir em modelos espacias empregando como matriz de correlação espacial membros da família Wendland. As funções pertencentes a esta família são definidas em um suporte compacto no intervalo $[0, 1)$, a qual sob condições adequadas produzem matrizes definidas positivas e esparsas  o que possibilita uma melhor eficiência computacional. Além disso, são caracterizadas por um raio de influência limitado, permitindo um decaimento para zero a  partir de um parâmetro pré-estabelecido. Ademais, com uma prescrição de suavidade à colocam como competidora natural da conhecida família Matérn. Apresentamos expressões para funções de covariância, semivariância e correlação pertencentes a esta família para diferentes valores do parâmetro de suavização, e desenvolvemos as relações entre o alcance prático e o suporte. Estabelecemos expressões para mensurar o índice de dependência espacial para as famílias Wendland e Matérn. O processo de estimação dos parâmetros são realizados em dois momentos. Primeiramente, realizamos um estudo sob a suposição dos dados pertencerem a processos Gaussianos, então, utilizamos o método de máxima verossimilhança. Posteriormente, estendemos esta suposição para além da distribuição normal, induzindo à distribuições marginais pertencentes a família exponencial de distribuições para dados espacialmente correlacionados simples e com medidas repetidas. Neste caso, utilizamos as equações de estimação generalizadas (EEG). A aplicação desta metodologia é realizada para as distribuições  Binomial, Poisson, Binomial negativa, Gama e Normal inversa. Além disso, como técnica de diagnostico, são desenvolvidas medidas de influência local sob diferentes esquemas de perturbação. Como critério de identificação de observações potencialmente influentes, propomos utilizar níveis de referência obtidos a partir de reamostragem  \textit{Jackknife-after-Bootstrap}. Para validar a metodologia sugerida, realizamos aplicações à conjuntos de dados reais. Executamos um pequeno estudo de simulação, o  qual mostrou que as medidas de influência tiveram um bom desempenho para identificar observações potencialmente influentes.  

2021
Dissertações
1
  • FILIPE ALMEIDA DE ANDRADE LIMA BRITO
  • PROCESSO ARMA LOMAX COM ESTRUTURA NA FUNÇÃO QUANTILICA


  • Orientador : MARIA DO CARMO SOARES DE LIMA
  • MEMBROS DA BANCA :
  • MARIA DO CARMO SOARES DE LIMA
  • GAUSS MOUTINHO CORDEIRO
  • RENATA ROJAS GUERRA
  • Data: 22/07/2021

  • Mostrar Resumo
  • Dada a ampla aplicabilidade de modelos de séries temporais, a proposta de abordagens que contemplem dados de diferentes suportes tem se tornado importante. A distribuição Lomax tem sido utilizada com sucesso para descrever fenômenos de diversas áreas de conhecimento, tais como análise de sobrevivência, confiabilidade e economia. Nesta dissertação, propõe-se um modelo de séries temporais pela abordagem de regressão com ligação na função quantílica tendo distribuição marginal Lomax para descrever tempo de reparo (TTR) de máquinas no contexto de confiabilidade. O novo modelo dinâmico é denominado como processo Autorregressivo e de Médias Móveis Lomax quantílico (ARMA-LQ). Inicialmente, propõe-se uma distribuição Lomax reparametrizada e algumas de suas propriedadas são revisitadas. Subsequentemente, o modelo ARMA-LQ é proposto e algumas de suas propriedades são estudadas, tais como funções escore e matriz de informação observada. É proposto um procedimento de estimaçãopor máxima verossimilhança condicional (EMVC) para os parâmetros do modelo ARMA-LQ. Através de experimentos Monte Carlo, o desempenho das estimativas de EMVC é quantificado para diferentes submodelos. Finalmente, o modelo ARMA-LQ é aplicado a dados reais a fim de descrever tempo de reparação de máquinas de construção civil, comparativamente ao modelo Gama-ARMA. Resultados sugerem que a proposta desta dissertação é um importante suposto probabilístico para lidar com dados tipo tempo de reparo.



  • Mostrar Abstract
  • Dada a ampla aplicabilidade de modelos de séries temporais, a proposta de abordagens que contemplem dados de diferentes suportes tem se tornado importante. A distribuição Lomax tem sido utilizada com sucesso para descrever fenômenos de diversas áreas de conhecimento, tais como análise de sobrevivência, confiabilidade e economia. Nesta dissertação, propõe-se um modelo de séries temporais pela abordagem de regressão com ligação na função quantílica tendo distribuição marginal Lomax para descrever tempo de reparo (TTR) de máquinas no contexto de confiabilidade. O novo modelo dinâmico é denominado como processo Autorregressivo e de Médias Móveis Lomax quantílico (ARMA-LQ). Inicialmente, propõe-se uma distribuição Lomax reparametrizada e algumas de suas propriedadas são revisitadas. Subsequentemente, o modelo ARMA-LQ é proposto e algumas de suas propriedades são estudadas, tais como funções escore e matriz de informação observada. É proposto um procedimento de estimaçãopor máxima verossimilhança condicional (EMVC) para os parâmetros do modelo ARMA-LQ. Através de experimentos Monte Carlo, o desempenho das estimativas de EMVC é quantificado para diferentes submodelos. Finalmente, o modelo ARMA-LQ é aplicado a dados reais a fim de descrever tempo de reparação de máquinas de construção civil, comparativamente ao modelo Gama-ARMA. Resultados sugerem que a proposta desta dissertação é um importante suposto probabilístico para lidar com dados tipo tempo de reparo.


2
  • ANDRÉ MEDEIROS CHAVES
  • Processo arma exponencial exponencializado reparametrizado e propriedades 


  • Orientador : ABRAAO DAVID COSTA DO NASCIMENTO
  • MEMBROS DA BANCA :
  • ABRAAO DAVID COSTA DO NASCIMENTO
  • FERNANDO ARTURO PEÑA RAMÍREZ
  • GAUSS MOUTINHO CORDEIRO
  • Data: 23/07/2021

  • Mostrar Resumo
  • Vários fenômenos de natureza física, biológica, financeira, social e econômica demandam o uso de modelos de séries temporais. Muitos avanços têm sido feitos para séries normais, contudo outras distribuições marginais são requeridas frequentemente. Esta dissertação visa contribuir nos âmbitos de séries temporais com retornos positivos. Neste suporte, a distribuição exponencial exponencializada (EE) tem se mostrado uma boa alternativa a outras leis positivas, tais como Gama e Lognormal.
    Nesta dissertação, inicialmente desenvolvemos uma reparametrização da distribuição EE baseada na função quantílica e em seguida combinamos essa nova distribuição com uma estrutura autorregressiva e de médias móveis (ARMA) cuja finalidade é de introduzir o modelo Exponencial
    Exponencializado Reparametrizado Autorregressivo de Médias Móveis (EER-ARMA), como uma alternativa não normal para descrever séries temporais, além disso, várias de suas propriedades são derivadas, como as funções escore e a matriz de informação observada.
    Um procedimento para estimação por máxima verossimilhança dos parâmetros associados é desenvolvido.
    Por meio de experimentos de Monte Carlo, avalia-se numericamente o comportamento das estimativas pontuais sob diferentes cenários, considerando a variação de três funções de ligações distintas. Resultados evidenciam que o uso da função de ligação logarítmica $W$ de Lambert possui desempenho superior quando comparada com as funções de ligação logarítmica e raiz quadrada.
    Por fim, uma aplicação a dados reais é apresentada, em que o modelo EER-ARMA com estrutura na mediana é comparado ao Gama-ARMA com estrutura na média. Resultados indicam que o modelo proposto, isto é, o modelo EER-ARMA pode superar o modelo Gama-ARMA.


  • Mostrar Abstract
  • Vários fenômenos de natureza física, biológica, financeira, social e econômica demandam o uso de modelos de séries temporais. Muitos avanços têm sido feitos para séries normais, contudo outras distribuições marginais são requeridas frequentemente. Esta dissertação visa contribuir nos âmbitos de séries temporais com retornos positivos. Neste suporte, a distribuição exponencial exponencializada (EE) tem se mostrado uma boa alternativa a outras leis positivas, tais como Gama e Lognormal.
    Nesta dissertação, inicialmente desenvolvemos uma reparametrização da distribuição EE baseada na função quantílica e em seguida combinamos essa nova distribuição com uma estrutura autorregressiva e de médias móveis (ARMA) cuja finalidade é de introduzir o modelo Exponencial
    Exponencializado Reparametrizado Autorregressivo de Médias Móveis (EER-ARMA), como uma alternativa não normal para descrever séries temporais, além disso, várias de suas propriedades são derivadas, como as funções escore e a matriz de informação observada.
    Um procedimento para estimação por máxima verossimilhança dos parâmetros associados é desenvolvido.
    Por meio de experimentos de Monte Carlo, avalia-se numericamente o comportamento das estimativas pontuais sob diferentes cenários, considerando a variação de três funções de ligações distintas. Resultados evidenciam que o uso da função de ligação logarítmica $W$ de Lambert possui desempenho superior quando comparada com as funções de ligação logarítmica e raiz quadrada.
    Por fim, uma aplicação a dados reais é apresentada, em que o modelo EER-ARMA com estrutura na mediana é comparado ao Gama-ARMA com estrutura na média. Resultados indicam que o modelo proposto, isto é, o modelo EER-ARMA pode superar o modelo Gama-ARMA.

3
  • IVANGILLYS GOMES DE LIMA
  • Processo Gompertz-ARMA e Propriedades: Uma Aplicação a Precificação do Mercado Financeiro

  • Orientador : MARIA DO CARMO SOARES DE LIMA
  • MEMBROS DA BANCA :
  • MARIA DO CARMO SOARES DE LIMA
  • PEDRO MONTEIRO DE ALMEIDA JUNIOR
  • VINICIUS QUINTAS SOUTO MAIOR
  • Data: 26/07/2021

  • Mostrar Resumo
  • O presente trabalho propõe um novo modelo autorregressivo e de médias móveis (ARMA) para estudar séries com dependência temporal com suporte nos reais positivos. Para tanto, considera-se como distribuição marginal do modelo proposto a distribuição Gompertz, definindo, portanto, o novo modelo denominado de: Gompertz-ARMA. O referido modelo é construído com base na reparametrização em termos dos quantis da distribuição Gompertz.
    O objetivo da reparametrização é modelar diferentes quantis de uma dada série temporal e avaliar os ajustes ao variar a modelagem do parâmetro de localização da série. Realiza-se um estudo de simulação de Monte Carlo para diferentes cenários dos parâmetros da distribuição Gompertz, diferentes quantis e tamanhos amostrais. Como método de estimação dos parâmetros da série, utiliza-se o método de máxima verossimilhança condicional. Por fim, para mostrar a aplicabilidade do novo modelo a situações reais, realiza-se um estudo de aplicação a dados do IBOVESPA, buscando prever o comportamento da série temporal considerada.


  • Mostrar Abstract
  • O presente trabalho propõe um novo modelo autorregressivo e de médias móveis (ARMA) para estudar séries com dependência temporal com suporte nos reais positivos. Para tanto, considera-se como distribuição marginal do modelo proposto a distribuição Gompertz, definindo, portanto, o novo modelo denominado de: Gompertz-ARMA. O referido modelo é construído com base na reparametrização em termos dos quantis da distribuição Gompertz.
    O objetivo da reparametrização é modelar diferentes quantis de uma dada série temporal e avaliar os ajustes ao variar a modelagem do parâmetro de localização da série. Realiza-se um estudo de simulação de Monte Carlo para diferentes cenários dos parâmetros da distribuição Gompertz, diferentes quantis e tamanhos amostrais. Como método de estimação dos parâmetros da série, utiliza-se o método de máxima verossimilhança condicional. Por fim, para mostrar a aplicabilidade do novo modelo a situações reais, realiza-se um estudo de aplicação a dados do IBOVESPA, buscando prever o comportamento da série temporal considerada.

4
  • ALLAN DOS SANTOS
  • APROXIMAÇÕES DE BAIXA COMPLEXIDADE PARA A DCT FRACIONÁRIA


  • Orientador : RENATO JOSE DE SOBRAL CINTRA
  • MEMBROS DA BANCA :
  • ABRAAO DAVID COSTA DO NASCIMENTO
  • BRUNA GREGORY PALM
  • RENATO JOSE DE SOBRAL CINTRA
  • Data: 27/08/2021

  • Mostrar Resumo
  • Entre as transformadas discretas mais relevantes, destaca-se a transformada discreta do cosseno (DCT), amplamente empregada em descorrelação de dados por sua proximidade numérica com a transformada de Karhunen-Loève. A DCT admite a inclusão de um parâmetro fracionário α, denominado de ordem, que assume valores no intervalo [0, 1]. Tem-se assim a transformada discreta do cosseno fracionária (FrDCT). Os valores intermediários de α levam a uma análise espectral mista com informações do domínio do tempo e do domínio da transformada. Para α intermediário, a FrDCT oferece uma complexidade de implementação maior do que a DCT, haja vista que as simetrias da DCT não são necessariamente transferidas para a FrDCT. Assim, a derivação de algoritmos rápidos para FrDCT é um tópico relevante, mas cujos desempenhos tendem a ser inferiores aos obtidos pelos algoritmos para a DCT usual. Para endereçar esse problema, propomos uma metodologia baseada em técnicas de aproximação matricial para a derivação de matrizes de baixa complexidade aritméticas capazes de avaliar numericamente a FrDCT. Tais aproximações redundam em algoritmos rápidos de baixa complexidade, sendo ausentes elementos multiplicadores. A ausência de multiplicadores facilita a eventual implementação física destes algoritmos, devido ao esperado baixo consumo energético e baixo consumo de elementos de hardware. Os métodos desenvolvidos têm aplicação em localização temporal de faltas e em análise de sinais não bem modelados por sistemas AR(1), como assumido na análise via DCT tradicional.



  • Mostrar Abstract
  • Entre as transformadas discretas mais relevantes, destaca-se a transformada discreta do cosseno (DCT), amplamente empregada em descorrelação de dados por sua proximidade numérica com a transformada de Karhunen-Loève. A DCT admite a inclusão de um parâmetro fracionário α, denominado de ordem, que assume valores no intervalo [0, 1]. Tem-se assim a transformada discreta do cosseno fracionária (FrDCT). Os valores intermediários de α levam a uma análise espectral mista com informações do domínio do tempo e do domínio da transformada. Para α intermediário, a FrDCT oferece uma complexidade de implementação maior do que a DCT, haja vista que as simetrias da DCT não são necessariamente transferidas para a FrDCT. Assim, a derivação de algoritmos rápidos para FrDCT é um tópico relevante, mas cujos desempenhos tendem a ser inferiores aos obtidos pelos algoritmos para a DCT usual. Para endereçar esse problema, propomos uma metodologia baseada em técnicas de aproximação matricial para a derivação de matrizes de baixa complexidade aritméticas capazes de avaliar numericamente a FrDCT. Tais aproximações redundam em algoritmos rápidos de baixa complexidade, sendo ausentes elementos multiplicadores. A ausência de multiplicadores facilita a eventual implementação física destes algoritmos, devido ao esperado baixo consumo energético e baixo consumo de elementos de hardware. Os métodos desenvolvidos têm aplicação em localização temporal de faltas e em análise de sinais não bem modelados por sistemas AR(1), como assumido na análise via DCT tradicional.


5
  • ISABEL SOARES DINIZ DE OLIVEIRA
  • Visual Tools to Identify Influential Observations in Spatial Data

  • Orientador : FERNANDA DE BASTIANI
  • MEMBROS DA BANCA :
  • FERNANDA DE BASTIANI
  • GETULIO JOSE AMORIM DO AMARAL
  • MANUEL JESUS GALEA ROJAS
  • Data: 28/10/2021

  • Mostrar Resumo
  • Adaptamos o hair-plot, proposto por Genton e Ruiz-Gazen (2010), para identificar e visualizar observações influentes em dados espaciais. Três ferramentas gráficas foram criadas: o bihair-plot, os principais componentes do hair-plot e o funcional hair-plot. A primeira ferramenta são as trajetórias dos valores de um estimador de semivariância espacial ao adicionar uma perturbação a cada observação de um vetor de dados espaciais observado considerando duas defasagens. O segundo descreve as trajetórias dos componentes principais de um estimador de semivariância espacial para todos os atrasos quando cada observação de dados é perturbada, tornando possível identificar observações influentes em dados espaciais contendo o máximo de informações possível do conjunto de dados. O terceiro é obtido a partir dos valores do estimador do semivariograma de rastreamento quando os dados recebem uma perturbação. Os estimadores considerados no estudo foram o semivariograma de amostra para caso univariado, semivariograma cruzado de amostra para caso bivariado e semivariograma de amostra de traço para dados funcionais. Outro método utilizado para obter o semivariograma cruzado foi o Elipsóide de Volume Mínimo, que é mais sensível a outliers. Por meio da análise de influência desse estimador, observamos que não é possível detectar observações influentes. Definimos a forma quadrática dos estimadores e a função de influência, a fim de compreender seu comportamento e propriedades. Por fim, fazemos uma aplicação com essas ferramentas nos dados de poluição para o caso univariado, complementando os resultados apresentados em Genton e Ruiz-Gazen (2010), os dados meuse do pacote sp para o caso bivariado, e os dados maritimes do pacote geofd em R.


  • Mostrar Abstract
  • We adapted the hair-plot, proposed by Genton e Ruiz-Gazen (2010), to identify and visualize influential observations in spatial data. Three graphic tools were created: the bihair-plot, the principal components hair-plot and functional hair-plot. The first tool is trajectories of the values of a spatial semivariance estimator when adding a perturbation to each observation of a vector of spatial data observed considering two lags. The second the second describes trajectories of the principal components of a spatial semivariance estimator values for all lags when each observation of data is perturbed, making it possible to identify influential observations in spatial data containing as much information as possible from the data set. The third is obtained from the values of the trace-semivariogram estimator when the data receive a disturbance. The estimators considered in the study were the sample semivariogram for univariate case, sample cross-semivariogram for bivariate case and sample trace-semivariogram for functional data. Another method used to obtain the cross-semivariogram was Minimum Volume Ellipsoid, which is more sensitive to outliers. Through the influence analysis of this estimator, we observed that it is not possible to detect influential observations. We defined the quadratic form of the estimators and the influence function, in order to understand their behavior and properties. Finally, we make an application with these tools in the pollution data for the univariate case, complementing the results shown in Genton e Ruiz-Gazen (2010), the meuse data from the sp package for the bivariate case, and the maritimes data from package geofd in R.

Teses
1
  • SAUL DE AZEVÊDO SOUZA
  • MÉTODOS ESTATÍSTICOS PARA DADOS EM ESPAÇOS NÃO EUCLIDIANOS

  • Orientador : ABRAAO DAVID COSTA DO NASCIMENTO
  • MEMBROS DA BANCA :
  • ABRAAO DAVID COSTA DO NASCIMENTO
  • MARIA DO CARMO SOARES DE LIMA
  • ALEX DIAS RAMOS
  • WENIA VALDEVINO FELIX
  • LUCIA PEREIRA BARROSO
  • Data: 01/07/2021

  • Mostrar Resumo
  • Esta Tese objetiva primeiramente estudar concentração em dados esféricos através deum novo paradigma, a saber reduzir o problema da esfera real para o intervalo [0, 1]. Os dados eféricos endereçados são em duas frentes: fenômenos direcionais e axiais. Para este fim,duas distribuições são propostas a partir de transformações beseadas em distâncias sobre as distribuições von Mises-Fisher (caso direcional) e Watson (caso axial) reais. As distribuições são denotadas como primeira transformação baseada em distância (TD1(𝜅)) e segunda transformação baseada em distância (TD2(𝜅)) para os casos direcional e axial, respectivamente, sendo 𝜅 um parâmetro que herda a relação com a concentração dos dados das distribuições esféricas. Adicionalmente, a discussão do novo paradigma para estudo de concentração é feita de sorte que se pode gerar outras distribuições a partir da propriedade de simetria rotacional na esfera real. Algumas propriedades matemáticas para as distribuições TD1 e TD2 são discutidas: função geradora de momentos, momentos, curtose, assimetria e matriz de informação de Fisher. Além disso, discussões sobre inferência (pontual e teste de hipótese) para os parâmetros dos novos modelos são realizadas. Uma vez estudadas e propostas as distribuições, elas são utilizadas como elementos centrais no desenvolvimento de estatísticas de testes para dados direcionais (a saber uma função de TD1) e axiais (uma função de TD2). Distribuições exatas para estas estatísticas são derivadas. Estudos numéricos, para as distribuições TD1 e TD2, apontam que as estimativas de máxima verossimilhança para 𝜅 apresentam bons desempenhos mesmo em pequenas amostras. Para o modelo 𝑇𝐷1, verificam-se que: (i) os testes de hipóteses clássicos (escore, Wald e razão de verossimilhanças) são em geral conservadores quanto ao nível pré-especificado em altas concentrações; (ii) o teste escore foi o mais conservador; (iii) o teste Wald foi o mais liberal para pequenos valores de 𝜅. Para o modelo 𝑇𝐷2, observam-se que: (i) o teste da razão de verossimilhanças tende a ser mais liberal para 𝜅 > 1; (ii) os testes Wald e escore são mais conservadores para 𝜅 > 0. Duas aplicações são feitas para ilustrar as propostas em dados esféricos. Resultados mostram que o uso dos paradigmas propostos conseguem detectar de modo simples (isto é, transferindo o problema de uma esfera Esta Tese objetiva primeiramente estudar concentração em dados esféricos através de um novo paradigma, a saber reduzir o problema da esfera real para o intervalo [0, 1]. Os dados eféricos endereçados são em duas frentes: fenômenos direcionais e axiais. Para este fim, duas distribuições são propostas a partir de transformações beseadas em distâncias sobre as distribuições von Mises-Fisher (caso direcional) e Watson (caso axial) reais. As distribuições são denotadas como primeira transformação baseada em distância (TD1(𝜅)) e segunda transformação baseada em distância (TD2(𝜅)) para os casos direcional e axial, respectivamente, sendo 𝜅 um parâmetro que herda a relação com a concentração dos dados das distribuições esféricas. Adicionalmente, a discussão do novo paradigma para estudo de concentração é feita de sorte que se pode gerar outras distribuições a partir da propriedade de simetria rotacional na esfera real. Algumas propriedades matemáticas para as distribuições TD1 e TD2 são discutidas: função geradora de momentos, momentos, curtose, assimetria e matriz de informação de Fisher. Além disso, discussões sobre inferência (pontual e teste de hipótese) para os parâmetros dos novos modelos são realizadas. Uma vez estudadas e propostas as distribuições, elas são utilizadas como elementos centrais no desenvolvimento de estatísticas de testes para dados direcionais (a saber uma função de TD1) e axiais (uma função de TD2). Distribuições exatas para estas estatísticas são derivadas. Estudos numéricos, para as distribuições TD1 e TD2, apontam que as estimativas de máxima verossimilhança para 𝜅 apresentam bons desempenhos mesmo em pequenas amostras. Para o modelo 𝑇𝐷1, verificam-se que: (i) os testes de hipóteses clássicos (escore, Wald e razão de verossimilhanças) são em geral conservadores quanto ao nível pré-especificado em altas concentrações; (ii) o teste escore foi o mais conservador; (iii) o teste Wald foi o mais liberal para pequenos valores de 𝜅. Para o modelo 𝑇𝐷2, observam-se que: (i) o teste da razão de verossimilhanças tende a ser mais liberal para 𝜅 > 1; (ii) os testes Wald e escore são mais conservadores para 𝜅 > 0. Duas aplicações são feitas para ilustrar as propostas em dados esféricos. Resultados mostram que o uso dos paradigmas propostos conseguem detectar de modo simples (isto é, transferindo o problema de uma esfera real para o intervalo [0, 1]) e eficiente alta concentração em amostras esféricas.

     

    É sabido que a média é uma medida de locação influenciada por valores destoantes do conjunto tanto no contexto uni quanto multivariado em espaços Euclidianos. Esse problema também se verifica para variedades estocásticas, como o espaço das pré-formas ou a hiperesfera complexa. A segunda parte desta tese se dedica a proposta de métodos baseados na mediana extrínseca como alternativa a média extrínseca de Fréchet, que tem fórmula analítica intratável. Fórmulas matemáticas para computar a mediana extrínseca projetada e procedimentos para detecção de outliers, baseados nessa medida, são apresentados. Estudos numéricos por simulação de Monte Carlo são realizados para quantificar a robustez da nova mediana em termos da distribuição Bingham complexa para o caso de formas planares (ou em duas
    dimensões). Os resultados mostraram que a mediana proposta é mais robusta que a forma média, principalmente para pequenos tamanhos de amostras. Uma aplicação aos dados de microfósseis ilustra o uso da mediana proposta.

     


  • Mostrar Abstract
  • Propomos uma distribuição de probabilidade baseada em distância no suporte [0,1] para descrever a dispersão de pontos na esfera unitária. Mostramos que se os dados esféricos seguem as leis de von Mises-Fisher ou Watson, então sua concentração pode ser modelada por nossa distribuição. Esta abordagem pode ser estendida a uma classe de distribuições esféricas com propriedade de simetria rotacional. Várias de suas propriedades são derivadas e discutidas: função geradora de momentos, curtose, assimetria e matriz de informação de Fisher. Além disso, procedimentos inferenciais baseados em probabilidade (para estimação pontual e teste de hipótese) envolvendo concentração são fornecidos. Estudos numéricos apontam que as estimativas de máxima verossimilhança apresentam um bom comportamento assintótico, mesmo em amostras de tamanhos pequenos. O teste da razão de verossimilhanças supera frequentemente os testes escore e Wald no cenário X~vMF(mu,kappa). Quando X~W(mu,kappa), os testes mencionados acima funcionam bem para a maioria dos cenários. Duas aplicações foram feitas para ilustrar nossa proposta. Primeiro, usamos estatísticas descritivas e análises gráficas para estudar a dispersão das medidas de distância. Em seguida, propomos um teste de hipótese para avaliar o grau de concentração de observações esféricas com base em dois resultados assintóticos para a von Mises-Fisher concentrada e Watson concentrada. Os resultados revelaram que as medidas de distância aplicadas aos cossenos direcionais são capazes de fornecer evidências sobre a dispersão de pontos na superfície da esfera unitária.

2
  • DANIEL MATOS DE CARVALHO
  • Spatial Scan Statistics Based on Empirical Likelihood and Robust Fitting for Generalized Additive Models for Location, Scale and Shape

  • Orientador : FERNANDA DE BASTIANI
  • MEMBROS DA BANCA :
  • ALEX DIAS RAMOS
  • FERNANDA DE BASTIANI
  • FRANCISCO CRIBARI NETO
  • GILBERTO ALVARENGA PAULA
  • MIGUEL ANGEL URIBE OPAZO
  • Data: 04/08/2021

  • Mostrar Resumo
  • Esta tese apresenta propostas para dois temas independentes e contribuição para três tópicos distintosAs ideias principais de cada tema são apresentados nos parágrafos seguintes.


    O primeiro tópico aceito para publicação apresenta um novo método para detecção de clusters espaciais, ou seja, um método para detecção de regiões com alta concentração de fenômenos espaciais, comparado com um número esperado, dada uma distribuição aleatória de eventos. A principal contribuição da proposta é apresentar um método não paramétrico, baseado nas funções de verossimilhança empírica, como alternativa para métodos tradicionais de varredura de clusters (scan) existentes na literatura. Desta forma, nenhuma família de distribuição é exigida para a variável de interesse. Para avaliação do método foram realizados estudos de simulação considerando o modelo Poisson inflacionado de zeros, comparando os resultados com o método scan proposto por Kuldorff. Os resultados mostram que o novo método reduz as probabilidades de erro do tipo I para observações inflacionadas de zero, com baixo poder para cluster com menos de 8 localizações. Um estudo de casos de sarampo na região de São Paulo, Brasil foi realizado. As observações apresentam uma alta ocorrência de zeros. Apenas o método scan de Kulldorff identificou a existência de um cluster, localizado e centrado na capital São Paulo. Entretanto, caso seja identificado um cluster pelo método Kulldorff na presença de observações inflacionadas e quando não confirmado pela abordagem não paramétrica, é recomendável que as interpretações sejam realizadas com cautela devido a alta probabilidade do erro do tipo I associado ao método Kulldorff quando o modelo não é bem especificado. 

    O segundo tema tem como objetivo apresentar foi tópicos com duas novas abordagens para modelagem robusta para os modelos aditivos generalizados de localização, escala e forma (GAMLSS). A principal motivação é a escassez de métodos robustos para modelos GAMLSS.  As duas propostas buscam transformações de modo a limitar a função de influência associada à distribuição de probabilidade de interessee focam em situações de  contaminação nas caudas das distribuições.  A primeira abordagem modifica a estrutura do logaritmo da função de verossimilhança, utilizando conceitos de censura. Apresenta estudos de simulação e aplicação. A segunda abordagem nete tema baseia-se em um truncamento adaptativo simples, onde observações identificadas como possíveis outliers são verificadas e, se necessário, removidas por truncamento da distribuição da variável de resposta. Além de propor novos métodos de modelagem robusta, eles foram comparados com alguns métodos já disponíveis na literatura. Os estudos de simulação utilizaram as distribuições gama e beta, considerando três modelos distintos: modelos paramétricos sem e com covariáveis e modelos não paramétricos.  Os resultados mostram que, em comparação com os métodos existentes na literatura, o método adaptativo truncado apresenta um melhor desempenho com menores valores no erro quadrático médio e menor variabilidade na maioria dos cenários simulados.  Os desempenhos gerais das propostas são ilustrados por meio de três aplicações: dados de ressonância de imagens cerebrais, usando splines de suavização bivariadas; dados de extrema pobreza infantil; e a dados de síndrome respiratória aguda grave - SRAG.

  • Mostrar Abstract
  • This thesis presents proposals for two independent themes and contributions to three different topics. The main ideas of each theme are presented in the next paragraphs.
    The first topic accepted for publication presents a new method for detecting spatial clusters, that is, a method for detecting regions with a high concentration of spatial phenomena, compared with an expected number, given a random distribution of events. The main contribution of the proposal is to present a non-parametric method, based on empirical likelihood functions, as an alternative to traditional methods of cluster scan existing in the literature. Thus, no distribution family is required for the variable of interest. To evaluate the method, simulation studies were carried out considering the Poisson model inflated with zeros, comparing the results with the scan method proposed by Kuldorff. The results show that the new method reduces the type I error probabilities for zero-inflated observations, with low power for clusters with less than 8 locations. A measles case study in the region of São Paulo, Brazil was carried out. Observations have a high occurrence of zeros. Only the Kulldorff scan method identified the existence of a cluster, located and centered in the capital São Paulo. However, if a cluster is identified by the Kulldorff method in the presence of inflated observations and when not confirmed by the non-parametric approach, it is recommended that the interpretations be performed with caution due to the high probability of type I error associated with the Kulldorff method when the model does not is well specified.
     
    The second theme aims to present topics with two new approaches to robust modeling for generalized additive models of location, scale and shape (GAMLSS). The main motivation is the scarcity of robust methods for GAMLSS models. Both proposals seek transformations in order to limit the influence function associated with the probability distribution of interest, and focus on situations of  contamination in the tails of the distributions. The first approach modifies the logarithm structure of the likelihood function, using concepts of censoring. Simulations studies were carried out to evaluate the methodology and applications are presented. The second approach in this theme is based on a simple adaptive truncation, where observations identified as possible outliers are verified and, if necessary, removed by truncation of the response variable distribution. In addition to proposing new robust modeling methods, they were compared with some methods already available in the literature. The simulation studies used the gamma and beta distributions, considering three distinct models: parametric models without and with covariates and non-parametric models. The results show that, compared to existing methods in the literature, the truncated adaptive method has a better performance with lower mean square error and lower variability in most simulated scenarios. The overall performances of the proposals are illustrated through three applications: brain image resonance data, using bivariate smoothing splines; extreme child poverty data; and data from severe acute respiratory syndrome - SRAG.

     

SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2022 - UFRN - sigaa02.ufpe.br.sigaa02