Distâncias Estocásticas para Agrupamento de Formas em 2D e Dados Direcionais
agrupamento, análise de formas, distribuição Bingham, distâncias, dados direcionais, espaço multidimensional, Von Mises-Fisher matricial.
Métodos não supervisionados são utilizados para distribuir dados em grupos distintos entre si, e com elementos com maior similaridade dentro dos grupos. Novas técnicas têm sido estudadas a fim de melhorar a eficácia do agrupamento em diversos cenários. Na primeira parte deste trabalho, o foco está na melhora do agrupamento em cenários com baixa concentração dos dados. Assim, o objetivo principal foi apresentar novas abordagens de técnicas de agrupamento, no contexto da análise de formas em cenários com dados menos concentrados. Utilizando a metodologia dos K vizinhos mais próximos aliada às distâncias com base na distribuição Bingham, propomos nove adaptações do algoritmo k-médias. As análises iniciaram com estudo de simulações, avaliando o número de K vizinhos, e, posteriormente, foram realizadas simulações de Monte Carlo. Os resultados simulados foram analisados por meio de estatísticas descritivas e testes de hipóteses. As nove adaptações propostas obtiveram desempenho semelhante entre si. Quando comparados com o algoritmo KMPS, os novos algoritmos mostraram desempenho melhor nos cenários de baixa concentração dos dados. Foram feitas três aplicações em base de dados reais nas quais os algoritmos que se destacaram foram o BB1JB, BR2 e o algoritmo KMPS. A segunda parte desta tese apresenta três propostas de distâncias no contexto de dados direcionais, sendo as três baseadas na distribuição Von Mises-Fisher matricial. O objetivo principal foi utilizá-las na composição de algoritmos para agrupamento de dados direcionais. Assim, foram propostos seis variações do algoritmo base. As análises tiveram início com a avaliação gráfica do desempenho das distâncias propostas, visando identificar mudanças em uma matriz tomada como base. Também foi verificado o impacto do número de direções nos desempenhos dos algoritmos, bem como suas performances em três cenários com características distintas. Foram realizadas aplicações em base de dados reais com informações tridimensionais de remanências magnéticas de rochas. As seis adaptações obtiveram desempenhos semelhantes, com índices de Rand variando alcançando valores iguais a 1.00, nos cenários com dois grupos.