Clustering algorithms with new automatic variables weighting
Agrupamento particional, Distâncias adaptativas, Agrupamento robusto, Análise de dados intervalares, Métodos baseados em regularização.
Todos os dias, uma grande quantidade de informações é armazenada ou representada como dados para posterior análise e gerenciamento. A análise de dados desempenha um papel indispensável na compreensão de diferentes fenômenos. Um dos meios vitais de lidar com esses dados é classificá-los ou agrupá-los em um conjunto de categorias ou grupos. O agrupamento ou análise de agrupamento visa dividir uma coleção de itens de dados em grupos, dada uma medida de similaridade. O agrupamento tem sido usado em vários campos, como processamento de imagens, mineração de dados, reconhecimento de padrões e análise estatística. Geralmente, os métodos de agrupamento lidam com objetos descritos por variáveis de valor real. No entanto, essa representação é muito restritiva para representar dados complexos, como listas, histogramas ou mesmo intervalos. Além disso, em alguns problemas, muitas dimensões são irrelevantes e podem mascarar os grupos existentes, por exemplo, os grupos podem existir em diferentes subconjuntos das variáveis. Este trabalho enfoca a análise de agrupamento de dados descritos por variáveis de valor real e de valor de intervalo. Nesse sentido, novos algoritmos de agrupamento de subespaço flexível foram propostos, nos quais a correlação e a relevância das variáveis são consideradas para melhorar o desempenho. No caso de dados com valor de intervalo, assumimos que a importância dos limites das variáveis com valor de intervalo pode ser a mesma ou pode ser diferente para o processo de agrupamento. Como os métodos baseados em regularização são robustos à inicializações, as abordagens propostas introduzem um termo de regularização para controlar o grau de pertinência dos objetos aos grupos. Essas regularizações são populares devido ao alto desempenho no agrupamento de dados em grande escala e baixa complexidade computacional. Esses algoritmos iterativos de três etapas fornecem uma partição difusa, um representante para cada grupo, e o peso de relevância das variáveis ou sua correlação, minimizando uma função objetivo adequada. Experimentos com conjuntos de dados sintéticos e reais corroboram a robustez e utilidade dos métodos de agrupamento propostos.