|
Dissertações |
|
1
|
-
JAIME PHASQUINEL LOPES CAVALCANTE
-
VARIABILIDADE E ADERÊNCIA EM MODELOS DE APRENDIZADO DE MÁQUINA COM DISTRIBUIÇÃO BETA
-
Orientador : PATRICIA LEONE ESPINHEIRA OSPINA
-
MEMBROS DA BANCA :
-
RAFAEL IZBICKI
-
FRANCISCO CRIBARI NETO
-
PATRICIA LEONE ESPINHEIRA OSPINA
-
RAYDONAL OSPINA MARTINEZ
-
Data: 07/02/2022
-
-
Mostrar Resumo
-
Proposto por Ferrari e Cribari-Neto (2004), o modelo de regressão beta tem sido objeto de estudo de diversos autores devido a sua relevância para a modelagem de fenômenos cuja variável resposta esteja definida no intervalo unitário (0,1). No tocante ao diagnóstico dos modelos de regressão beta, Espinheira et al. (2008) apresentaram a definição de resíduos baseados no processo iterativo Scoring de Fisher, sendo esta amplamente utilizada para a generalização e proposição de novos resíduos para as extensões dos modelos de regressão beta. Com o foco na distribuição de probabilidade e observando que a mesma forma uma família exponencial bidimensional, utilizamos o Teorema da Função Integrável - demonstrado por Barndorff-Nielsen (1978) e Lehmann (1986) - para propor uma nova classe de resíduos e critérios do tipo baseados nas estatísticas suficientes e completas com a finalidade de avaliar a variabilidade e aderência, além de realizar diagnósticos em modelos de aprendizado de máquina (machine learning) com distribuição beta. Além disso, para o modelo de regressão beta, propomos um novo resíduo baseado no processo iterativo Scoring de Fisher. Quanto à qualidade preditiva, utilizamos a estatística PRESS e o coeficiente de predição , introduzido por Espinheira et al. (2019) para a classe de modelos de regressão beta lineares e não-lineares. O desempenho das propostas é avaliado por meio de três aplicações, associadas a um conjunto de dados reais, relativas ao estudo do risco a doenças cardiovasculares.
-
Mostrar Abstract
-
Proposto por Ferrari e Cribari-Neto (2004), o modelo de regressão beta tem sido objeto de estudo de diversos autores devido a sua relevância para a modelagem de fenômenos cuja variável resposta esteja definida no intervalo unitário (0,1). No tocante ao diagnóstico dos modelos de regressão beta, Espinheira et al. (2008) apresentaram a definição de resíduos baseados no processo iterativo Scoring de Fisher, sendo esta amplamente utilizada para a generalização e proposição de novos resíduos para as extensões dos modelos de regressão beta. Com o foco na distribuição de probabilidade e observando que a mesma forma uma família exponencial bidimensional, utilizamos o Teorema da Função Integrável - demonstrado por Barndorff-Nielsen (1978) e Lehmann (1986) - para propor uma nova classe de resíduos e critérios do tipo baseados nas estatísticas suficientes e completas com a finalidade de avaliar a variabilidade e aderência, além de realizar diagnósticos em modelos de aprendizado de máquina (machine learning) com distribuição beta. Além disso, para o modelo de regressão beta, propomos um novo resíduo baseado no processo iterativo Scoring de Fisher. Quanto à qualidade preditiva, utilizamos a estatística PRESS e o coeficiente de predição , introduzido por Espinheira et al. (2019) para a classe de modelos de regressão beta lineares e não-lineares. O desempenho das propostas é avaliado por meio de três aplicações, associadas a um conjunto de dados reais, relativas ao estudo do risco a doenças cardiovasculares.
|
|
2
|
-
JACIELE DE JESUS OLIVEIRA
-
Modelos SIR e algoritmos tipo ensemble com aplicações a COVID-19
-
Orientador : RAYDONAL OSPINA MARTINEZ
-
MEMBROS DA BANCA :
-
ALEX DIAS RAMOS
-
HEMILIO FERNANDES CAMPOS COELHO
-
RAYDONAL OSPINA MARTINEZ
-
Data: 14/02/2022
-
-
Mostrar Resumo
-
Em janeiro de 2020 o mundo foi surpreendido com uma nova epidemia, o COVID-19, causada pelo vírus Sars-Cov-2. O surto deste vírus teve início na China e se espalhou rapidamente pelo mundo, de forma que no dia 11 de março de 2020 a Organização Mundial de Saúde (OMS) classificou o alastramento do vírus como uma pandemia. Por se tratar de um vírus novo, até então, não havia conhecimento sobre o seu comportamento, tornando crucial o uso de ferramentas estatísticas e matemáticas que permitissem descrever o curso da epidemia. Neste trabalho abordaremos algumas dessas ferramentas, que podem ser utilizadas para descrever a propagação de doenças infecciosas. Ajustamos o modelo compartimentado SIR aos dados de COVID-19 do estado da Paraíba para estimar as taxas de infecção e recuperação da doença e comparamos com resultados de prevalência estimados por uma pesquisa amostral sorológica probabilística realizada no estado. Os resultados obtidos pelo modelo SIR indicam subestimação com base em dados com possível subnotificação. Numa tentativa de aprimorar a análise dos dados, passamos a trabalhar com as curvas acumuladas de óbitos, uma vez que essas curvas são mais estáveis e os números de óbitos não dependem do registro de casos confirmados. Para isso utilizamos uma abordagem via modelo combinados (ensemble). Este tipo de abordagem usa modelos dinâmicos de crescimento integrando a predição de vários modelos através de uma combinação ponderada, o que permite diminuir o erro de previsão. Para a construção do modelo ensemble utilizamos os modelos de crescimento logístico, de Gompertz e de Richards. O modelo ensemble se ajustou de forma satisfatória aos dados se mostrando uma metodologia promissora para predição dos dados da COVID-19.
-
Mostrar Abstract
-
Em janeiro de 2020 o mundo foi surpreendido com uma nova epidemia, o COVID-19, causada pelo vírus Sars-Cov-2. O surto deste vírus teve início na China e se espalhou rapidamente pelo mundo, de forma que no dia 11 de março de 2020 a Organização Mundial de Saúde (OMS) classificou o alastramento do vírus como uma pandemia. Por se tratar de um vírus novo, até então, não havia conhecimento sobre o seu comportamento, tornando crucial o uso de ferramentas estatísticas e matemáticas que permitissem descrever o curso da epidemia. Neste trabalho abordaremos algumas dessas ferramentas, que podem ser utilizadas para descrever a propagação de doenças infecciosas. Ajustamos o modelo compartimentado SIR aos dados de COVID-19 do estado da Paraíba para estimar as taxas de infecção e recuperação da doença e comparamos com resultados de prevalência estimados por uma pesquisa amostral sorológica probabilística realizada no estado. Os resultados obtidos pelo modelo SIR indicam subestimação com base em dados com possível subnotificação. Numa tentativa de aprimorar a análise dos dados, passamos a trabalhar com as curvas acumuladas de óbitos, uma vez que essas curvas são mais estáveis e os números de óbitos não dependem do registro de casos confirmados. Para isso utilizamos uma abordagem via modelo combinados (ensemble). Este tipo de abordagem usa modelos dinâmicos de crescimento integrando a predição de vários modelos através de uma combinação ponderada, o que permite diminuir o erro de previsão. Para a construção do modelo ensemble utilizamos os modelos de crescimento logístico, de Gompertz e de Richards. O modelo ensemble se ajustou de forma satisfatória aos dados se mostrando uma metodologia promissora para predição dos dados da COVID-19.
|
|
3
|
-
JERFSON BRUNO DO NASCIMENTO HONÓRIO
-
Classificação Não Supervisionada no Contexto de Tamanho e Forma
-
Orientador : GETULIO JOSE AMORIM DO AMARAL
-
MEMBROS DA BANCA :
-
FERNANDA DE BASTIANI
-
GETULIO JOSE AMORIM DO AMARAL
-
LUCIA PEREIRA BARROSO
-
Data: 17/02/2022
-
-
Mostrar Resumo
-
A dissertação tem como objetivo propor métodos de classificação não supervisionados no contexto de tamanho e forma considerando imagens bidimensionais (formas planas). Apresentamos novos métodos de classificação baseados em testes de hipóteses e no algoritmo K-médias. Também propomos combinações de algoritmos usando métodos de ensemble: Bagging e Boosting.
Para avaliar os métodos propostos foram analisados dados simulados e dados reais. Com os dados simulados, três cenários foram usados para avaliar o desempenho dos métodos propostos. Os cenários correspondem a grupos de alta, média e baixa variabilidade. Os resultados numéricos indicaram que para os conjuntos de dados, quando os tamanhos dos centróides se diferenciam, o desempenho dos algoritmos melhora. Além disso, os algoritmos baseados em Boosting e Bagging superam suas versões básicas. Três conjuntos de dados do mundo real são considerados: dados de referência de crânios de grandes macacos; dados de vértebras de camundongos e imagens de ressonância magnética de pessoas com esquizofrenia. Esses conjuntos de dados têm configurações diferentes, como vários pontos de referência e variabilidade. Os métodos K-médias Bagging e K-médias Boosting tem o melhor desempenho nos conjuntos de dados. Por fim, considerando os resultados com dados sintéticos e reais, o k-médias Bagging é escolhido como o melhor método.
-
Mostrar Abstract
-
A dissertação tem como objetivo propor métodos de classificação não supervisionados no contexto de tamanho e forma considerando imagens bidimensionais (formas planas). Apresentamos novos métodos de classificação baseados em testes de hipóteses e no algoritmo K-médias. Também propomos combinações de algoritmos usando métodos de ensemble: Bagging e Boosting.
Para avaliar os métodos propostos foram analisados dados simulados e dados reais. Com os dados simulados, três cenários foram usados para avaliar o desempenho dos métodos propostos. Os cenários correspondem a grupos de alta, média e baixa variabilidade. Os resultados numéricos indicaram que para os conjuntos de dados, quando os tamanhos dos centróides se diferenciam, o desempenho dos algoritmos melhora. Além disso, os algoritmos baseados em Boosting e Bagging superam suas versões básicas. Três conjuntos de dados do mundo real são considerados: dados de referência de crânios de grandes macacos; dados de vértebras de camundongos e imagens de ressonância magnética de pessoas com esquizofrenia. Esses conjuntos de dados têm configurações diferentes, como vários pontos de referência e variabilidade. Os métodos K-médias Bagging e K-médias Boosting tem o melhor desempenho nos conjuntos de dados. Por fim, considerando os resultados com dados sintéticos e reais, o k-médias Bagging é escolhido como o melhor método.
|
|
4
|
-
RAFAEL ZIMMERLE DA NOBREGA
-
Causal Inference in Sampling From Finite Populations
-
Orientador : CRISTIANO FERRAZ
-
MEMBROS DA BANCA :
-
CRISTIANO FERRAZ
-
VINICIUS QUINTAS SOUTO MAIOR
-
MAURICIO TEIXEIRA LEITE VASCONCELLOS
-
Data: 18/02/2022
-
-
Mostrar Resumo
-
A inferência causal lida com a estimação do efeito de intervenções específicas sobre uma variável de resposta. A estratégia de estimação envolve a comparação de unidades expostas a níveis de fatores de intervenção, com unidades não expostas, as quais formam um grupo de controle. O grupo de controle serve como base para estimar o contrafactual da resposta no grupo de tratamento. Em estudos observacionais, uma grande preocupação na construção desses grupos é garantir a comparabilidade entre eles, a partir do controle de outras características que não o próprio tratamento, as quais podem causar interferência indesejada sobre estimativas dos efeitos causais, provocando um viés sistemático. Embora a teoria por trás de estudos observacionais tenha avançado com métodos para reduzir esse viés, os dados utilizados em diversos desses estudos são obtidos por meio de amostragem probabilística complexa raramente levados em consideração no processo de estimação. A presente dissertação considera que, além de representar uma fonte de variabilidade que deve ser incorporada na estimação de efeitos causais, planos e técnicas de estimação de amostragem podem ter um papel central para estimar efeitos causais de forma eficiente. São realizados estudos para investigar o uso de amostras balanceadas que garantam a comparabilidade entre grupos de tratamento e controle, no que diz respeito às distribuições das covariáveis, e de estimadores para a média da variável de resposta no grupo de controle baseados em calibração, a fim de melhorar as estimativas da resposta média contrafactual do grupo de tratamento. Comparam-se esses métodos com aqueles já disponíveis na literatura, por meio de simulações de Monte Carlo.
-
Mostrar Abstract
-
Causal inference deals with estimating the effects of specific interventions on a response variable. The estimation strategy involves comparing units exposed to intervention factor’s levels, forming a treatment group, with those units not exposed, forming a control group. The control group serves as the base to estimate the counterfactual response of the treatment group. In observational studies, a major concern when building such groups is to ensure their comparability, controlling for characteristics others than the treatment itself, that may cause undesired interference on causal effects estimates, leading to systematic bias. Although the theory behind observational studies has advanced with methods to reduce such bias using conditional inference, in several of these studies data is obtained through complex probability sampling designs seldom taken into account in the estimation process. This thesis considers that, beyond representing a source of variability that must be incorporated in the analysis, sample design and estimation techniques can have a central role to estimate causal effects efficiently. Studies are carried out to investigate the use of balanced samples to ensure comparability between treatment and control groups with respect to the distributions of covariates, and the use of calibration estimates for the control group average response, improving estimates of the average counterfactual treatment response. The methods are compared with those already available in the literature, via Monte Carlo simulation.
|
|
5
|
-
PAULO RICARDO PEIXOTO DE ALENCAR FILHO
-
Amostragem Inversa de Bernoulli e Aplicações
-
Orientador : CRISTIANO FERRAZ
-
MEMBROS DA BANCA :
-
CRISTIANO FERRAZ
-
FERNANDA DE BASTIANI
-
PEDRO LUIS DO NASCIMENTO SILVA
-
Data: 18/02/2022
-
-
Mostrar Resumo
-
A ausência de uma listagem, ou cadastro, que identifique e dê acesso aos elementos da população-alvo é uma das adversidades mais recorrentes enfrentadas em levantamentos amostrais. Quando cadastros estão disponíveis, não raro necessitam de atualização de cobertura para serem utilizados. Quando os elementos da população estão agrupados em conglomerados, o desafio recai com frequência na ausência ou desatualização de listagens de elementos dentro de cada conglomerado. Nesta dissertação, o plano de amostragem inversa de Bernoulli é apresentado, suas propriedades estatísticas discutidas, e o potencial de seu uso no segundo estágio de planos amostrais de dois estágios, para selecionar a amostra durante o processo de atualização do cadastro, investigado. O desempenho de planos em dois estágios combinando o uso de Amostragem de Pareto ou Amostragem Sequencial de Poisson no primeiro estágio, com Amostragem Inversa de Bernoulli ou Amostragem Sistemática no segundo estágio, é estudado através de um experimento computacional de Monte Carlo utilizando dados da Pesquisa Sorológica Continuar Cuidando, realizada no Estado da Paraíba, para monitoramento da epidemia de COVID-19.
-
Mostrar Abstract
-
The absence of a listing frame that identify and provides access to the elements of a target-population is one of the most recurrent adversities faced by sampling surveys. When sample frames are available not seldom, they need to be updated to be used in practice. When the elements of a target-population are grouped in clusters, the challenge very often rely on the non-existence or the outdating of existing listing frame of elements within clusters. In this Thesis the Inverse Bernoulli Sampling design is presented, its statistical properties discussed and its potential use in the second stage of two-stage sampling designs, to select a sample at the same time an updating screening process is carried out, is investigated. The performance of two-stage designs combining Pareto Sampling or Sequential Poisson sampling in the first stage, with Inverse Bernoulli Sampling or Systematic Sampling in the second stage, is studied by a computational Monte Carlo experiment using data from the serological Survey Sample Continuar Cuidando, carried out in the Brazilian state of Paraiba, to monitor the COVID-19 epidemics.
|
|
6
|
-
THOMÁS FREUD DE MORAIS GONÇALVES
-
Acerca do Processo-Bell-Touchard: proposta de um processo de contagem baseado na distribuição Bell-Touchard
-
Orientador : PABLO MARTIN RODRIGUEZ
-
MEMBROS DA BANCA :
-
PABLO MARTIN RODRIGUEZ
-
ÉLCIO LEBENSZTAYN
-
VALDIVINO VARGAS JÚNIOR
-
Data: 22/02/2022
-
-
Mostrar Resumo
-
Uma das limitações do processo Poisson é a hipótese de saltos unicamente unitários em intervalos infinitesimais. Todavia essa limitação é contornada pelo processo Poisson composto. Entretanto, em muitos casos a distribuição de probabilidade dos incrementos não tem forma conhecida no processo Poisson composto, limitando sua modelagem ao uso de funções geradoras de probabilidades ou técnicas numéricas e simulações. Neste trabalho, propomos um novo processo de contagem baseado na distribuição Bell-Touchard, denominado processo Bell-Touchard. Entre suas propriedades, verificamos que o processo é membro da família de processos Poisson compostos e Poisson múltiplos e que também é fechado para convolução e decomposição. Mostramos que o processo decorrente da composição de processos Poisson é Bell-Touchard. Apresentamos duas generalizações, o processo Bell-Touchard composto e o processo Bell-Touchard não homogêneo, mostrando que este último pode ser obtido pela composição de um processo Poisson não homogêneo em um processo Poisson homogêneo. Ademais, apresentamos uma estratégia para simulação do novo processo, bem como uma aplicação em teoria da ruína, mediante uma modificação do processo Cramér-Lundberg
-
Mostrar Abstract
-
Uma das limitações do processo Poisson é a hipótese de saltos unicamente unitários em intervalos infinitesimais. Todavia essa limitação é contornada pelo processo Poisson composto. Entretanto, em muitos casos a distribuição de probabilidade dos incrementos não tem forma conhecida no processo Poisson composto, limitando sua modelagem ao uso de funções geradoras de probabilidades ou técnicas numéricas e simulações. Neste trabalho, propomos um novo processo de contagem baseado na distribuição Bell-Touchard, denominado processo Bell-Touchard. Entre suas propriedades, verificamos que o processo é membro da família de processos Poisson compostos e Poisson múltiplos e que também é fechado para convolução e decomposição. Mostramos que o processo decorrente da composição de processos Poisson é Bell-Touchard. Apresentamos duas generalizações, o processo Bell-Touchard composto e o processo Bell-Touchard não homogêneo, mostrando que este último pode ser obtido pela composição de um processo Poisson não homogêneo em um processo Poisson homogêneo. Ademais, apresentamos uma estratégia para simulação do novo processo, bem como uma aplicação em teoria da ruína, mediante uma modificação do processo Cramér-Lundberg
|
|
7
|
-
DIEGO DA SILVA SANTOS
-
MODELOS DE REGULARIZAÇÃO COM IMPUTAÇÃO E CURVAS DE DECISÃO APLICADOS A DADOS DE MEDICINA
-
Orientador : PABLO MARTIN RODRIGUEZ
-
MEMBROS DA BANCA :
-
PABLO MARTIN RODRIGUEZ
-
FLORENCIA GRACIELA LEONARDI
-
TATIANA ANDREA BENAGLIA CARVALHO
-
Data: 22/02/2022
-
-
Mostrar Resumo
-
Na análise estatística é comum a presença de dados faltantes em muitas aplicações e estudos em inúmeras áreas com especial ênfase a área da saúde. Estudos foram sendo desenvolvidos ao longo da segunda metade do século XX para contornar o problema de dados faltantes dos quais destacam-se os trabalhos de Rubin (1988) e Schafer (1997) em imputação de dados. Além do tratamento do banco de dados e preenchimento dos dados para utilização das técnicas estatísticas de modelagem que em sua grande maioria são restritas a dados completos, outra questão que se levanta após o tratamento dos dados é a técnica estatística mais adequada a ser utilizada para o determinado objetivo inferencial. Na área de análise de regressão os modelos com regularização vem sendo cada vez mais utilizados em problemas de alta dimensão onde tem-se muitas covariáveis a serem estimadas ou problemas de multicolinearidade. Esta dissertação aborda o problema da modelagem de regressão regularizada aplicada aos dados imputados, em especial ao modelo de regressão LASSO para dados multi-imputados conhecida como MI-LASSO (Chen e Wang, 2013), também utiliza-se a técnica de validação cruzada aninhada (Bates, Hastie e Tibshirani, 2021) para obtenção da variância empírica de validação cruzada e intervalos de confiança mais largos para o erro de validação dentro da amostra envolvidos nos modelos de regularização. Desta forma, é proposta uma abordagem utilizando a imputação múltipla através do Bootstrap Bayesiano atrelado ao modelo LASSO com validação cruzada aninhada para correção da estimativa de variância da validação cruzada usual, e busca-se o modelo com melhor poder de predição (ou classificação para problemas envolvendo modelo logístico com variável resposta de interesse dicotômica). Por fim, utiliza-se da metodologia de curvas de decisão proposta por Vickers e Elkin (2006) para a aplicação em dados de Covid-19 com o intuito de propor uma abordagem correta na tomada de decisões de profissionais da saúde em problemas de diagnóstico clínico na presença de dados faltantes.
-
Mostrar Abstract
-
Na análise estatística é comum a presença de dados faltantes em muitas aplicações e estudos em inúmeras áreas com especial ênfase a área da saúde. Estudos foram sendo desenvolvidos ao longo da segunda metade do século XX para contornar o problema de dados faltantes dos quais destacam-se os trabalhos de Rubin (1988) e Schafer (1997) em imputação de dados. Além do tratamento do banco de dados e preenchimento dos dados para utilização das técnicas estatísticas de modelagem que em sua grande maioria são restritas a dados completos, outra questão que se levanta após o tratamento dos dados é a técnica estatística mais adequada a ser utilizada para o determinado objetivo inferencial. Na área de análise de regressão os modelos com regularização vem sendo cada vez mais utilizados em problemas de alta dimensão onde tem-se muitas covariáveis a serem estimadas ou problemas de multicolinearidade. Esta dissertação aborda o problema da modelagem de regressão regularizada aplicada aos dados imputados, em especial ao modelo de regressão LASSO para dados multi-imputados conhecida como MI-LASSO (Chen e Wang, 2013), também utiliza-se a técnica de validação cruzada aninhada (Bates, Hastie e Tibshirani, 2021) para obtenção da variância empírica de validação cruzada e intervalos de confiança mais largos para o erro de validação dentro da amostra envolvidos nos modelos de regularização. Desta forma, é proposta uma abordagem utilizando a imputação múltipla através do Bootstrap Bayesiano atrelado ao modelo LASSO com validação cruzada aninhada para correção da estimativa de variância da validação cruzada usual, e busca-se o modelo com melhor poder de predição (ou classificação para problemas envolvendo modelo logístico com variável resposta de interesse dicotômica). Por fim, utiliza-se da metodologia de curvas de decisão proposta por Vickers e Elkin (2006) para a aplicação em dados de Covid-19 com o intuito de propor uma abordagem correta na tomada de decisões de profissionais da saúde em problemas de diagnóstico clínico na presença de dados faltantes.
|
|
8
|
-
WILLAMS BATISTA FERREIRA DA SILVA
-
Processo ARMA Gama Generalizado Aplicado a Imagens de Amplitude e Intensidade SAR
-
Orientador : ABRAAO DAVID COSTA DO NASCIMENTO
-
MEMBROS DA BANCA :
-
ABRAAO DAVID COSTA DO NASCIMENTO
-
FERNANDA VITAL DE PAULA
-
LEANDRO CHAVES REGO
-
Data: 25/02/2022
-
-
Mostrar Resumo
-
Os problemas de sensoriamento remoto são resolvidos usando imagens de radar de aber-tura sintética (SAR). Porém, essas imagens sofrem com o ruído speckle, que exige uma certa modelagem de seus atributos (como intensidade e amplitude). É comum trabalhar com abordagens separadas para dados de intensidade e amplitude. Neste trabalho, propomos um novo processo autoregressivo de médias móveis (ARMA) com distribuição marginal Gama Generalizada (GΓ), denominado GΓ-ARMA e conseguimos modelar ambos os atributos com o mesmo modelo. Derivamos algumas de suas propriedades matemáticas: expressões de forma fechada baseadas em momento, função escore e matriz de informação de Fisher. Um procedimento para obter estimativas de máxima verossimilhança dos parâmetros GΓ-ARMA é fornecido e seu desempenho é quantificado e discutido usando experimentos de Monte Carlo, considerando (entre outras) várias funções de ligação. Por fim, a proposta é aplicada a dados reais obtidos deimagens das regiões de Munique e São Francisco. Os resultados demonstram que GΓ-ARMA descreve as vizinhanças dos pixels da imagem SAR melhor do que o processo Γ-ARMA (que é uma referência para dados positivos assimétricos). Ao modelar raios de pixel reais, nossaproposta supera os modelos GI0 e Γ-ARMA.
-
Mostrar Abstract
-
Os problemas de sensoriamento remoto são resolvidos usando imagens de radar de aber-tura sintética (SAR). Porém, essas imagens sofrem com o ruído speckle, que exige uma certa modelagem de seus atributos (como intensidade e amplitude). É comum trabalhar com abordagens separadas para dados de intensidade e amplitude. Neste trabalho, propomos um novo processo autoregressivo de médias móveis (ARMA) com distribuição marginal Gama Generalizada (GΓ), denominado GΓ-ARMA e conseguimos modelar ambos os atributos com o mesmo modelo. Derivamos algumas de suas propriedades matemáticas: expressões de forma fechada baseadas em momento, função escore e matriz de informação de Fisher. Um procedimento para obter estimativas de máxima verossimilhança dos parâmetros GΓ-ARMA é fornecido e seu desempenho é quantificado e discutido usando experimentos de Monte Carlo, considerando (entre outras) várias funções de ligação. Por fim, a proposta é aplicada a dados reais obtidos deimagens das regiões de Munique e São Francisco. Os resultados demonstram que GΓ-ARMA descreve as vizinhanças dos pixels da imagem SAR melhor do que o processo Γ-ARMA (que é uma referência para dados positivos assimétricos). Ao modelar raios de pixel reais, nossaproposta supera os modelos GI0 e Γ-ARMA.
|
|
9
|
-
NOEMIR DOS SANTOS SOUSA
-
Associação em Tabelas de Contingência de Dupla Entrada com Dados Amostrais Complexos de COVID-19.
-
Orientador : CRISTIANO FERRAZ
-
MEMBROS DA BANCA :
-
ALEX DIAS RAMOS
-
CRISTIANO FERRAZ
-
HEMILIO FERNANDES CAMPOS COELHO
-
Data: 29/06/2022
-
-
Mostrar Resumo
-
A associação em tabelas de contingência é averiguada através de estudos que analisam a independência das variáveis ou a homogeneidade, através de testes hipóteses. Nesta dissertação são efetuadas análises com dados amostrais complexos, que são os que possuem: estratificação, conglomeração e/ou probabilidade proporcional a uma medida de tamanho. Utilizamos os dados de COVID-19 da Pesquisa Sorológica Continuar Cuidando, do estado da Paraíba, com o objetivo de apresentar os testes de Rao-Scott e de Wald para investigar a associação em tabelas de contingência de dupla entrada, enfatizando a importância de considerar corretamente o plano amostral.
-
Mostrar Abstract
-
A associação em tabelas de contingência é averiguada através de estudos que analisam a independência das variáveis ou a homogeneidade, através de testes hipóteses. Nesta dissertação são efetuadas análises com dados amostrais complexos, que são os que possuem: estratificação, conglomeração e/ou probabilidade proporcional a uma medida de tamanho. Utilizamos os dados de COVID-19 da Pesquisa Sorológica Continuar Cuidando, do estado da Paraíba, com o objetivo de apresentar os testes de Rao-Scott e de Wald para investigar a associação em tabelas de contingência de dupla entrada, enfatizando a importância de considerar corretamente o plano amostral.
|
|
|
Teses |
|
1
|
-
FERNANDA CLOTILDE DA SILVA
-
Um critério de Seleção Para Modelos Beta Baseado no Trade-off Predição e Variabilidade
-
Orientador : PATRICIA LEONE ESPINHEIRA OSPINA
-
MEMBROS DA BANCA :
-
PATRICIA LEONE ESPINHEIRA OSPINA
-
FRANCISCO CRIBARI NETO
-
RAYDONAL OSPINA MARTINEZ
-
MICHEL H. MONTORIL
-
RAFAEL IZBICKI
-
Data: 16/02/2022
-
-
Mostrar Resumo
-
Muitas vezes surge a necessidade de estudar dados cujos valores pertencem ao intervalo (0; 1), e quando o interesse consiste em ajustar modelos de regressão para tais dados, o uso do modelo de regressão normal linear pode fornecer valores mal ajustados, excedendo os limites do intervalo. Nesse caso, podemos optar pelo uso do modelo de regressão beta, proposto por Ferrari e Cribari-Neto (2004), que tem se mostrado uma ferramenta muito eficiente. Tal modelo se baseia em supor que a variável resposta segue uma distribuição beta, assumindo uma nova parametrização, indexando a média da resposta e um parâmetro de precisão. O uso desse modelo tem crescido consideravelmente nos últimos anos, e diversos trabalhos têm sido desenvolvidos, propondo algumas extensões, como é possível ver em Smithson e Verkuilen (2006), Simas et al. (2010), Carrasco et al. (2014), entre outros. Além das extensões do modelo beta, alguns métodos de análise de diagnóstico também foram desenvolvidos para essa classe de modelos, buscando verificar a adequabilidade do ajuste, identificando possíveis afastamentos das suposições feitas para o modelo. Entretanto, o uso das técnicas de diagnóstico normalmente segue após a escolha de um conjunto de covariáveis consideradas relevantes para o modelo, esse procedimento é conhecido como seleção de modelos, e muitos métodos e critérios têm sido desenvolvidos para sua realização, dentre eles destacam-se os pseudos R^2, que avaliam a proporção de variação da variável resposta que pode ser explicada pelo modelo ajustado, essas medidas foram estudadas e implementadas por Bayer e Cribari-Neto (2017) para a classe de modelos betas. Além dessas quantidades, dispomos também de mais um critério para selecionar modelos, denotado por P^2, que identifica a habilidade do modelo em predizer bons valores para a variável resposta, com base na estatística PRESS (Predictive Residual Sum of Squares), proposta por Allen (1971) e introduzida aos modelos beta por Espinheira et al. (2019). Uma vez que a definição de alguns critérios de seleção tem como interesse verificar o poder de explicação da variabilidade da resposta, ou o poder de predição dos valores desta variável, esse trabalho, tem como objetivo apresentar mais uma medida para selecionar modelos de regressão beta, no entanto, considerando ambos os interesses, isto é, desenvolvemos uma medida que considera tanto a quantidade de variabilidade explicada pelo modelo como também a predição de bons valores. Avaliamos o desempenho da medida proposta por meio de estudos de simulação de Monte Carlo, considerando diversos cenários, também aplicamos bancos de dados reais que reafirmam a eficácia da nossa medida.
-
Mostrar Abstract
-
Muitas vezes surge a necessidade de estudar dados cujos valores pertencem ao intervalo (0; 1), e quando o interesse consiste em ajustar modelos de regressão para tais dados, o uso do modelo de regressão normal linear pode fornecer valores mal ajustados, excedendo os limites do intervalo. Nesse caso, podemos optar pelo uso do modelo de regressão beta, proposto por Ferrari e Cribari-Neto (2004), que tem se mostrado uma ferramenta muito eficiente. Tal modelo se baseia em supor que a variável resposta segue uma distribuição beta, assumindo uma nova parametrização, indexando a média da resposta e um parâmetro de precisão. O uso desse modelo tem crescido consideravelmente nos últimos anos, e diversos trabalhos têm sido desenvolvidos, propondo algumas extensões, como é possível ver em Smithson e Verkuilen (2006), Simas et al. (2010), Carrasco et al. (2014), entre outros. Além das extensões do modelo beta, alguns métodos de análise de diagnóstico também foram desenvolvidos para essa classe de modelos, buscando verificar a adequabilidade do ajuste, identificando possíveis afastamentos das suposições feitas para o modelo. Entretanto, o uso das técnicas de diagnóstico normalmente segue após a escolha de um conjunto de covariáveis consideradas relevantes para o modelo, esse procedimento é conhecido como seleção de modelos, e muitos métodos e critérios têm sido desenvolvidos para sua realização, dentre eles destacam-se os pseudos R^2, que avaliam a proporção de variação da variável resposta que pode ser explicada pelo modelo ajustado, essas medidas foram estudadas e implementadas por Bayer e Cribari-Neto (2017) para a classe de modelos betas. Além dessas quantidades, dispomos também de mais um critério para selecionar modelos, denotado por P^2, que identifica a habilidade do modelo em predizer bons valores para a variável resposta, com base na estatística PRESS (Predictive Residual Sum of Squares), proposta por Allen (1971) e introduzida aos modelos beta por Espinheira et al. (2019). Uma vez que a definição de alguns critérios de seleção tem como interesse verificar o poder de explicação da variabilidade da resposta, ou o poder de predição dos valores desta variável, esse trabalho, tem como objetivo apresentar mais uma medida para selecionar modelos de regressão beta, no entanto, considerando ambos os interesses, isto é, desenvolvemos uma medida que considera tanto a quantidade de variabilidade explicada pelo modelo como também a predição de bons valores. Avaliamos o desempenho da medida proposta por meio de estudos de simulação de Monte Carlo, considerando diversos cenários, também aplicamos bancos de dados reais que reafirmam a eficácia da nossa medida.
|
|
2
|
-
VINICIUS TEODORO SCHER
-
Essays on Double Bounded Time Series Analysis
-
Orientador : FRANCISCO CRIBARI NETO
-
MEMBROS DA BANCA :
-
FRANCISCO CRIBARI NETO
-
PATRICIA LEONE ESPINHEIRA OSPINA
-
RAYDONAL OSPINA MARTINEZ
-
AIRLANE PEREIRA ALENCAR
-
PEDRO ALBERTO MORETTIN
-
Data: 18/02/2022
-
-
Mostrar Resumo
-
Duas etapas importantes na modelagem de séries temporais são seleção de modelos e análise de diagnóstico. No que diz respeito à análise de diagnóstico, nós abordamos a realização de inferências via testes portmanteau utilizando séries temporais que assumem valores no intervalo da unitário padrão. Nosso foco reside na classe de modelos beta autorregressivos e de médias móveis (βARMA). Em particular, desejamos testar a adequacidade de tais modelos. Nós consideramos diversos testes que foram propostos para modelos de séries temporais gaussianas e dois novos testes recentemente introduzidos na literatura. Derivamos a distribuição nula assintótica das duas novas estatísticas de teste em dois cenários diferentes, a saber: quando os testes são aplicados a uma série temporal observada e quando são aplicados a resíduos de um modelo βARMA. Vale a pena notar que nossos resultados implicam a validade assintótica dos testes portmanteau padrão na classe de modelos βARMA que são, sob hipótese nula, assintoticamente equivalente aos dois novos testes. Usamos simulação de Monte Carlo para avaliar os méritos relativos dos diferentes testes portmanteau quando usados conjuntamente com o modelo βARMA. Os resultados de simulação que apresentamos mostram que os novos testes são tipicamente mais poderosos que um teste bem conhecido, cuja estatística de teste também é baseada em autocorrelações parciais dos resíduos. No geral, os dois novos testes funcionam muito bem. Adicionalmente, modelamos a dinâmica da proporção de energia hidrelétrica armazenada no sul do Brasil. Os resultados mostram que o modelo βARMA supera três modelos alternativos e um algoritmo de suavização exponencial. Num segundo estudo, avaliamos a eficácia de estratégias de seleção de modelos com base em diferentes critérios de informação no modelo βARMA. A evidência numérica para modelos autorregressivos, de médias móveis e mistos (autorregressivos e de médias móveis) mostra que, em geral, um critério de seleção de modelos baseado em bootstrap apresenta o melhor desempenho. Nossa aplicação empírica mostra que as previsões mais precisas são obtidas usando seleção de modelo baseada em bootstrap.
-
Mostrar Abstract
-
Two important steps in time series analysis are model selection and diagnostic analysis. We address the issue of performing diagnostic analysis through portmanteau testing inferences using time series data that assume values in the standard unit interval. Our focus lies in the class of beta autoregressive moving average (βARMA) models. In particular, we wish to test the goodness-of-fit of such models. We consider several testing criteria that have been proposed for Gaussian time series models and two new tests that were recently introduced in the literature. We derive the asymptotic null distribution of the two new test statistics in two different scenarios, namely: when the tests are applied to an observed time series and when they are applied to residuals from a fitted βARMA model. It is worth noticing that our results imply the asymptotic validity of standard portmanteau tests in the class of ARMA models that are, under the null hypothesis, asymptotically equivalent to the two new tests. We use Monte Carlo simulation to assess the relative merits of the different portmanteau tests when used with fitted βARMA. The simulation results we present show that the new tests are typically more powerful than a well known test whose test statistic is also based on residual partial autocorrelations. Overall, the two new tests perform quite well. We also model the dynamics of the proportion of stocked hydroelectric energy in South of Brazil. The results show that the βARMA model outperforms three alternative models and an exponential smoothing algorithm. We also consider the issue of performing model selection with double bounded time series. We evaluate the effectiveness of βARMA model selection strategies based on different information criteria. The numerical evidence for autoregressive, moving average, and mixed autoregressive and moving average models shows that, overall, a bootstrap-based model selection criterion is the best performer. An empirical application which we present and discuss shows that the most accurate out-of-sample forecasts are obtained using bootstrap-based model selection.
|
|
3
|
-
ANA CRISTINA GUEDES PEREIRA
-
ESSAYS ON REGRESSION MODELS FOR DOUBLE BOUNDED AND EXTREME-VALUE RANDOM VARIABLES: IMPROVED TESTING INFERENCES AND EMPIRICAL ANALYSES
-
Orientador : FRANCISCO CRIBARI NETO
-
MEMBROS DA BANCA :
-
FRANCISCO CRIBARI NETO
-
FERNANDA DE BASTIANI
-
RAYDONAL OSPINA MARTINEZ
-
FÁBIO MARIANO BAYER
-
GILBERTO ALVARENGA PAULA
-
Data: 21/02/2022
-
-
Mostrar Resumo
-
Regressões beta são comumente usadas com respostas que assumem valores no intervalo de unidade padrão, tais como taxas, proporções e índices de concentração. Inferências de teste de hipóteses sobre os parâmetros do modelo são normalmente realizadas utilizando o teste de razão de verossimilhanças. Tal teste fornece inferências precisas quando o tamanho da amostra é grande, mas pode conduzir a conclusões imprecisas quando o número de observações é pequeno. Portanto, é importante desenvolver testes alternativos com comportamento superior em pequenas amostras. Derivamos o fator de correção de Bartlett para o teste da razão de verossimilhanças sob a formulação mais geral do modelo de regressão beta, ou seja, sob precisão variável. O modelo contém dois submodelos, um para a resposta média e outro para o parâmetro de precisão. Nosso interesse reside na realização de testes sobre os parâmetros que indexam os dois submodelos. Usamos três estatísticas de teste da razão de verossimilhanças corrigidas por Bartlett que devem apresentar desempenho superior quando o tamanho da amostra é pequeno relativamente ao teste usual. Apresentamos resultados de simulações de Monte Carlo sobre os comportamentos em pequenas amostras dos testes corrigidos por Bartlett, do teste da razão de verossimilhanças usual e de dois testes melhorados que se baseiam em uma abordagem alternativa. A evidência numérica apresentada mostra que um dos testes corrigidos por Bartlett tipicamente conduz a inferências muito precisas mesmo quando o tamanho da amostra é muito pequeno. Uma aplicação empírica relacionada a biometria comportamental é apresentada e discutida.Também consideramos a realização de inferências de teste de hipóteses sobre os parâmetros que indexam um modelo geral de regressão de valor extremo. O modelo contém submodelos separados para os parâmetros de localização e dispersão e permite não linearidades. Com base em tal modelo, é possível avaliar os impactos de diferentes covariáveis sobre a ocorrência de eventos extremos. As inferências de teste são frequentemente baseadas no teste da razão de verossimilhanças, incluindo aquelas realizadas para determinar quais variáveis independentes devem ser incluídas no modelo. Tal teste utiliza valores críticos assintóticos e pode apresentar distorções de tamanho apreciáveis quando o número de observações é pequeno. Em particular, ele tende a ser liberal, ou seja, tipicamente fornece taxas de erro do tipo I que superam o nível de significância selecionado pelo usuário. Derivamos o fator de correção de Bartlett para o teste de razão de verossimilhanças e o utilizamos para definir três estatísticas de teste corrigidas. Embora os testes corrigidos também utilizem valores críticos assintóticos, suas distorções de tamanho convergem para zero mais rapidamente do que as do teste não modificado e, portanto, os novos testes tendem a produzir melhor controle da frequência de erro do tipo I. São apresentados e discutidos resultados de simulações Monte Carlo e também uma aplicação empírica que utiliza dados relacionados à pandemia de Covid-19.
-
Mostrar Abstract
-
Beta regressions are commonly used with responses that assume values in the standard unit interval, such as rates, proportions and concentration indices. Hypothesis testing inferences on the model parameters are typically performed using the likelihood ratio test. It delivers accurate inferences when the sample size is large, but can otherwise lead to unreliable conclusions. It is thus important to develop alternative tests with superior finite sample behavior. We derive the Bartlett correction to the likelihood ratio test under the more general formulation of the beta regression model, i.e.\ under varying precision. The model contains two submodels, one for the mean response and a separate one for the precision parameter. Our interest lies in performing testing inferences on the parameters that index both submodels. We use three Bartlett-corrected likelihood ratio test statistics that are expected to yield superior performance when the sample size is small. We present Monte Carlo simulation evidence on the finite sample behavior of the Bartlett-corrected tests relative to the standard likelihood ratio test and to two improved tests that are based on an alternative approach. The numerical evidence shows that one of the Bartlett-corrected typically delivers accurate inferences even when the sample is quite small. An empirical application related to behavioral biometrics is presented and discussed. We also address the issue of performing testing inference in a general extreme value regression model when the sample size issmall. The model contains separate submodels for the location and dispersion parameters. It allows practitioners to investigate the impacts of different covariates on extreme events. Testing inferences are frequently based on the likelihood test, including those carried out to determine which independent variables are to be included into the model. The test is based on asymptotic critical values and may be considerably size-distorted when the number of data points is small. In particular, it tends to be liberal, i.e., it yields rates of type I errors that surpass the test's nominal size. We derive the Bartlett correction to the likelihood ratio test and use it to define three Bartlett-corrected test statistics. Even though these tests also use asymptotic critical values, their size distortions vanish faster than that of the unmodified test and thus they yield better control of the type I error frequency. Extensive Monte Carlo evidence and an empirical application that uses Covid-19 related data are presented and discussed.
|
|
4
|
-
CÉSAR DIOGO BEZERRA DA SILVA
-
Novos Paradigmas para o Processo de Stavskaya
-
Orientador : ALEX DIAS RAMOS
-
MEMBROS DA BANCA :
-
ALEX DIAS RAMOS
-
FABIO PRATES MACHADO
-
GETULIO JOSE AMORIM DO AMARAL
-
MARIA EULALIA VARES
-
PABLO MARTIN RODRIGUEZ
-
Data: 21/02/2022
-
-
Mostrar Resumo
-
O processo de Stavskaya, o qual denotaremo Stav por simplicidade, é uma versão a tempo discreto do conhecido processo de contato. Neste trabalho, revisitamos o processo de Stavskaya com comprimento variável, um sistema de partículas interagentes unidimensional que difere dos tradicionalmente estudados. Nele, as partículas podem aparecer ou desaparecer durante a evolução do sistema. Neste sistema, cada partícula assume estado mais ou menos e evolui da seguinte forma: entre duas partículas vizinhas, nasce uma partícula no estado mais com probabilidade β, independente do que ocorre nos outros lugares. Sempre que uma partícula no estado mais é a vizinha mais próxima a direita de uma partícula no estado menos, então este mais desaparece com probabilidade α. Diferente de Stav, foi mostrado que esta versão variável não apresenta o mesmo tipo de transição de fase. Mais especificamente, o processo variável sempre converge para a mesma delta medida (ergódico), independente dos parâmetros fixados. Em nosso estudo, estabelecemos e analisamos a existência de um outro tipo de transição de fase. Além de termos explorado outros aspectos da sua dinâmica.
No processo de Stavskaya clássico, em cada passo de tempo, dois operadores atuam: o primeiro determinístico, D, seguido por um aleatório. Tomamos um processo de difusão, descrito por uma equação diferencial parcial. Mostramos que sua equação de diferença finita, a qual denotamos por Difus, é levada via ultradiscretização em D. Motivados por essa correspondência, definimos o processo de Stavskaya de difusão, denotada PSD por simplicidade. Assim como o Stav, o PSD evolui em tempo discreto, da seguinte forma: Em cada passo de tempo discreto, dois operadores atuam, primeiro Difus seguido de um outro aleatório. Diferente de Stav, cada partícula do PSD assume valor num conjunto não enumerável. Mais especificamente, ele atua no conjunto de medidas de probabilidade em [1,∞)Z. Verificamos se o PSD e o processo de Stavskaya são qualitativamente equivalentes, por exemplo, se há uma transição de fase e se propriedades, como: monotonicidade e linearidade são mantidas. Em adição, desenvolvemos, para o processo de stavskaya de comprimento variável e o PSD, alguns estudos numéricos.
-
Mostrar Abstract
-
Revisitamos o processo de Stavskaya com comprimento variável, um sistema de partículas interagentes unidimensional que difere dos tradicionalmente estudados.
Nele, as partículas podem aparecer ou desaparecer durante a evolução do sistema . Ele foi inspirado no clássico processo de Stavskaya, que é uma versão a tempo discreto do bem conhecido processo de contato. É provado que ambos processos apresentam um tipo de transição de fase.
Foi mostrado que para a versão variável destes processos, essa transição de fase não existe. Mais especificamente, o processo é sempre ergódico. Em nosso estudo, estabelecemos e analisamos a existência de um outro tipo de transição de fase. Além de explorar outros aspectos da sua dinâmica. No sistema que estamos estudando, cada partícula assume o estado mais ou menos. Entre duas partículas, nasce uma partícula mais com probabilidade β independente do que ocorre nos outros lugares. Sempre que uma partícula mais é a vizinha mais próxima a direita de uma partícula menos, então ela desaparece com probabilidade α. Desenvolvemos alguns estudos computacionais.
|
|
5
|
-
MARIA IONERIS OLIVEIRA SILVA
-
Modelos de Tempo de Vida Acelerado Birnbaum-Saunders Multivariados
-
Orientador : FRANCISCO JOSE DE AZEVEDO CYSNEIROS
-
MEMBROS DA BANCA :
-
FRANCISCO JOSE DE AZEVEDO CYSNEIROS
-
ALINE BARBOSA TSUYUGUCHI
-
ABRAAO DAVID COSTA DO NASCIMENTO
-
JUVENCIO SANTOS NOBRE
-
FILIDOR EDILFONSO VILCA LABRA
-
Data: 21/02/2022
-
-
Mostrar Resumo
-
Modelos de regressão Birnbaum-Saunders têm sido utilizados com frequência nos últimos anos. Uma das principais premissas nos modelos de regressão tradicionais é o pressuposto de independência entre as observações. No entanto, em alguns casos, essa suposição não é válida, como no caso de eventos observados no mesmo indivíduo. A este respeito, modelos de regressão multivariados com estrutura de dependência são uma possível alternativa para modelagem de dados deste tipo. Dessa forma, neste trabalho, introduzimos inicialmente o modelo de regressão Birnbaum-Saunders bivariado com estrutura de dependência modelada através da abordagem de fragilidade. Posteriormente, propomos uma nova distribuição Birnbaum-Saunders multivariada e derivamos algumas propriedades da mesma. Propomos uma extensão do modelo bivariado acima mencionado, isto é, desenvolvemos um novo modelo de regressão Birnbaum-Saunders multivariado. Alguns estudos de simulação foram desenvolvidos para avaliar o desempenho dos estimadores propostos. Finalmente, desenvolvemos o modelo Birnbaum- Saunders generalizado multivariado em que, particularmente, propomos o modelo t de Student Birnbaum-Saunders multivariado. Utilizamos o método de máxima verossimilhança para estimar os parâmetros dos modelos propostos, bem como, derivamos alguns resíduos para avaliar o ajuste dos mesmos. Propomos alguns resíduos e derivamos medidas de diagnósticos sob o enfoque de influência local para os modelos propostos. Para ilustrar a metodologia desenvolvida, no que se refere ao modelo bivariado,utilizamos o conjunto de dados reais que reporta os tempos de recorrência de infecções de 38 pacientes renais usando uma máquina de diálise portátil. No caso do modelo Birnbaum-Saunders multivariado, consideramos dois conjuntos de dados reais: o primeiro conjunto de dados retrata o acompanhamento realizado por pesquisadores da escola de odontologia da universidade da Carolina do Norte sobre o crescimento das crianças (16 meninos, 11 meninas) com idade entre 8 e 14 anos; o segundo conjunto de dados reporta a duração do tempo de exercício necessário até provocar a angina em 21 pacientes com cardiopatia.
-
Mostrar Abstract
-
Modelos de regressão de Birnbaum-Saunders têm sido utilizados com frequência nos últimos anos. É bem conhecido que modelos multivariados desempenham um papel importante na modelagem de dados correlacionados. Dessa forma, neste trabalho, introduzimos inicialmente o modelo de regressão Birnbaum-Saunders bivariado e através do método da máxima verossimilhança estimamos os parâmetros do modelo. Derivamos resíduos e medidas de diagnósticos sob o enfoque de influência local. Posteriormente, propomos uma nova distribuição Birnbaum-Saunders multivariada e derivamos algumas propriedades da mesma. Propomos um novo modelo de regressão Birnbaum-Saunders multivariado, em que o método de máxima verossimilhança é usado para estimar os parâmetros, bem como, derivamos alguns resíduos para avaliar o ajuste do modelo proposto. Alguns estudos de simulação foram desenvolvidos para avaliar o desempenho dos estimadores e dos resíduos supracitados. Realizamos uma análise de diagnóstico para este modelo e aplicamos a metodologia estudada a conjuntos de dados reais.
|
|
6
|
-
JOSÉ IRAPONIL COSTA LIMA
-
Diagnóstico por influência no modelo de regressão Birnbaum-saunders valor extremo
-
Orientador : RAYDONAL OSPINA MARTINEZ
-
MEMBROS DA BANCA :
-
RAYDONAL OSPINA MARTINEZ
-
FRANCYELLE DE LIMA MEDINA
-
KLAUS LEITE PINTO VASCONCELLOS
-
ANTONIO MURILO SANTOS MACEDO
-
CAROLINA IVONNE MARCHANT FUENTES
-
Data: 23/02/2022
-
-
Mostrar Resumo
-
A implementação de ações de diagnóstico baseadas em avaliação de influência local é uma etapa relevante em uma análise estatística cuja modelagem é constituída por uma estrutura de regressão, pois possibilita a identificação de observações que interferem de forma desproporcional nos resultados inferências quando pequenas perturbações são impostas sobre as mesmas. O objetivo do nosso trabalho é desenvolver análise de diagnóstico por meio de influência local sobre o modelo de regressão Birnbaum-Saunders Valor Extremo (EVBS). Mais precisamente, obter expressões que possibilitam o cálculo das curvaturas normal e conforme associadas a diferentes esquemas de perturbações: ponderação de casos, perturbação na resposta e perturbação em uma variável explicativa. Ao mesmo tempo, buscamos identificar se certas formas de perturbação são apropriadas para se perturbar o modelo de regressão EVBS (caso regular), segundo critérios estabelecidos na literatura estatística. No tocante ao modelo de regressão alvo do estudo, deduzimos algumas propriedades da função densidade de probabilidade da componente estocástica do modelo, abordarmos o problema de estimação por máxima verossimilhança e realizamos simulações de Monte Carlo com o propósito de verificar a existência de suporte empírico que corrobora com a hipótese de consistência assintótica do estimador de máxima verossimilhança (EMV) dos parâmetros. Paralelamente, derivamos uma nova família de distribuições, chamada distribuição Birnbaum-Saunders-Pareto generalizada (GPD-BS), por meio de uma mudança no núcleo da transformação que determina a BS clássica em termos da normal padrão, o qual passa a assumir uma distribuição Pareto generalizada. Ao longo do trabalho, analisamos conjuntos de dados reais de natureza meteorológica com o propósito de ilustrar a eficácia das ferramentas desenvolvidas ou exemplificar o potencial do modelo EVBS na modelagem de dados extremos.
-
Mostrar Abstract
-
A implementação de ações de diagnóstico baseadas em avaliação de influência local é uma etapa relevante em uma análise estatística cuja modelagem é constituída por uma estrutura de regressão, pois possibilita a identificação de observações que interferem de forma desproporcional nos resultados inferências quando pequenas perturbações são impostas sobre as mesmas. O objetivo do nosso trabalho é desenvolver análise de diagnóstico por meio de influência local sobre o modelo de regressão Birnbaum-Saunders Valor Extremo (EVBS). Mais precisamente, obter expressões que possibilitam o cálculo das curvaturas normal e conforme associadas a diferentes esquemas de perturbações: ponderação de casos, perturbação na resposta e perturbação em uma variável explicativa. Ao mesmo tempo, buscamos identificar se certas formas de perturbação são apropriadas para se perturbar o modelo de regressão EVBS (caso regular), segundo critérios estabelecidos na literatura estatística. No tocante ao modelo de regressão alvo do estudo, deduzimos algumas propriedades da função densidade de probabilidade da componente estocástica do modelo, abordarmos o problema de estimação por máxima verossimilhança e realizamos simulações de Monte Carlo com o propósito de verificar a existência de suporte empírico que corrobora com a hipótese de consistência assintótica do estimador de máxima verossimilhança (EMV) dos parâmetros.
|
|
7
|
-
MARCELO DOS SANTOS
-
Uma releitura inferencial e análise de diagnósticos em modelos geoestatísticos
-
Orientador : FERNANDA DE BASTIANI
-
MEMBROS DA BANCA :
-
FERNANDA DE BASTIANI
-
CRISTIANO FERRAZ
-
GETULIO JOSE AMORIM DO AMARAL
-
ORIETTA NICOLIS
-
MANUEL JESUS GALEA ROJAS
-
Data: 24/02/2022
-
-
Mostrar Resumo
-
O presente trabalho de tese, estuda situações em que os eventos de interesse apresentam dependência espacial entre as observações. Não obstante, estudos nesta área tenham tido notáveis avanços, técnicas relacionadas a eficiência da matriz de correlação espacial utilizada, bem como a escolha de tal, além de modelos de quasi-verossimilhança e distribuições para dados com excesso de zeros, ainda são pouco exploradas. Destarte, os modelos apresentados neste texto estão fundamentados em modelos geoestatísticos, que tem como objetivo estimar o valor de uma dada propriedade de interesse, para diferentes localizações referenciadas, condicionado a alguma função de correlação espacial entre os dados amostrados. Dito isto, desenvolvemos este trabalho em três etapas. Na primeira etapa, ancoramos na teoria das funções de base radial compactamente suportadas no intervalo [0, 1), com o objetivo de avaliar o desempenho de funções pertencentes a esta classe, quando aplicadas a modelos espaciais lineares. Para tanto, utilizamos a família de funções Wendland e a comparamos com a família Matérn, para vários valores de seus parâmetros de suavização. Paralelamente, desenvolvemos as relações entre o alcance prático e o parâmetro de suporte e, estabelecemos expressões para mensurar o índice de dependência espacial para ambas as famílias. Além disso, como técnica de diagnóstico, são desenvolvidas medidas de influência local sob diferentes esquemas de perturbação. Como critério de identificação de observações potencialmente influentes, propomos utilizar níveis de referência obtidos a partir de reamostragem Jackknife-after-Bootstrap. Na segunda etapa, propomos um novo critério para seleção da matriz de correlação espacial de trabalho, baseado no condicionamento da matriz de variância-covariância naive, a partir de modelos de quasi-verossimilhança e Equações de Estimação Generalizadas. Avaliamos a performance do método por um extenso estudo de simulações, utilizando as distribuições marginais da Normal, Poisson e Gama para dados espacialmente correlacionados. A especificação da estrutura de correlação é baseada em modelos de semivariogramas, utilizando as famílias Wendland, Matérn e modelo Esférico. Os resultados revelaram que o critério proposto resultou em um melhor desempenho em comparação com os concorrentes disponíveis na literatura, com relação às taxas de acerto da verdadeira estrutura de correlação espacial dos dados simulados. Na terceira etapa, temos como objetivo avaliar a distribuição espacial da quantidade ou ocorrência de chuva em uma dada região geográfica. Neste caso, a análise torna-se complicada devido a ocorrência de valor zero na amostra, isto é, localizações em que não ocorreu chuva no período em estudo. Assim, para acomodar o zero, propomos utilizar um modelo de mistura da distribuição degenerada em zero com a distribuição Gama, sob dados espacialmente referenciados gerando, assim, um modelo geoestatístico Gama aumentada com zero. Para acomodar a dependência espacial, incorporamos uma estrutura de quasi-verossimilhança e estimamos os parâmetros utilizando equações de estimação através do algoritmo Expectation-Solution. Além disso, sugerimos medidas para os resíduos e desenvolvemos medidas de influência local, sob os esquemas de perturbação de ponderação de casos, variável resposta e nas covariáveis. Por fim, acrescentamos que em todas as etapas um exemplo numérico foi analisado utilizando conjuntos de dados reais. Em tempo, destacamos que, embora cada etapa esteja relacionada pelo fato de estarem sob o enfoque da análise e inferência em modelos geoestatísticos, cada um dos capítulos poderá ser lido de forma independente.
-
Mostrar Abstract
-
Utilizando a teoria das funções de base radias compactamente suportadas, propomos inferir em modelos espacias empregando como matriz de correlação espacial membros da família Wendland. As funções pertencentes a esta família são definidas em um suporte compacto no intervalo $[0, 1)$, a qual sob condições adequadas produzem matrizes definidas positivas e esparsas o que possibilita uma melhor eficiência computacional. Além disso, são caracterizadas por um raio de influência limitado, permitindo um decaimento para zero a partir de um parâmetro pré-estabelecido. Ademais, com uma prescrição de suavidade à colocam como competidora natural da conhecida família Matérn. Apresentamos expressões para funções de covariância, semivariância e correlação pertencentes a esta família para diferentes valores do parâmetro de suavização, e desenvolvemos as relações entre o alcance prático e o suporte. Estabelecemos expressões para mensurar o índice de dependência espacial para as famílias Wendland e Matérn. O processo de estimação dos parâmetros são realizados em dois momentos. Primeiramente, realizamos um estudo sob a suposição dos dados pertencerem a processos Gaussianos, então, utilizamos o método de máxima verossimilhança. Posteriormente, estendemos esta suposição para além da distribuição normal, induzindo à distribuições marginais pertencentes a família exponencial de distribuições para dados espacialmente correlacionados simples e com medidas repetidas. Neste caso, utilizamos as equações de estimação generalizadas (EEG). A aplicação desta metodologia é realizada para as distribuições Binomial, Poisson, Binomial negativa, Gama e Normal inversa. Além disso, como técnica de diagnostico, são desenvolvidas medidas de influência local sob diferentes esquemas de perturbação. Como critério de identificação de observações potencialmente influentes, propomos utilizar níveis de referência obtidos a partir de reamostragem \textit{Jackknife-after-Bootstrap}. Para validar a metodologia sugerida, realizamos aplicações à conjuntos de dados reais. Executamos um pequeno estudo de simulação, o qual mostrou que as medidas de influência tiveram um bom desempenho para identificar observações potencialmente influentes.
|
|