Unsupervised Feature Selection and Deep Subspace Clustering for
Exploratory High-Dimensional Cluster Analysis
Small Data Analysis, Dados de Alta Dimensionalidade, Maldição da di-mensionalidade, Seleção Não Supervisionada de Características, Agrupamento de Dados
de Subespaços.
Com o avanço das tecnologias da informação, a quantidade de dados disponíveis tem
crescido rapidamente, trazendo desafios significativos para o armazenamento e processamento em termos de recursos computacionais. Esse crescimento ocorre tanto no número
de exemplos quanto na quantidade de características que descrevem esses dados. Uma
alternativa para lidar com esse cenário é realizar uma análise exploratória inicial a partir
de um baixo volume de dados (small data analysis). Isso pode resultar não apenas
na redução da quantidade de dados a serem processados, mas também na melhoria da
qualidade desses dados durante o treinamento de algoritmos de aprendizado de máquina
(AM). No entanto, apenas reduzir o número de exemplos, especialmente quando estes
possuem alta dimensionalidade, configura o que se conhece como “maldição da
dimensionalidade”. Esse fenômeno ocorre quando um pequeno número de exemplos é
descrito por centenas ou milhares de características, tornando a análise ainda mais desafiadora.
Nessas situações, o uso de técnicas de redução de dimensionalidade a partir de um
número limitado de exemplos torna-se essencial para realizar uma análise mais eficiente e
humanamente mais acessível, uma vez que permite a interpretação dos dados a partir de
uma quantidade menor de exemplos e em uma baixa dimensionalidade. Diferentemente
dos métodos convencionais de redução de dimensionalidade, como PCA, que geram novas
características através de transformações no conjunto original de dados, os métodos não
supervisionados de seleção de características, focam na identificação, sem necessitar de
uma rotulagem prévia dos dados, das características mais relevantes. Isso possibilita uma
maior interpretabilidade de padrões naturais dos dados. No entanto, existem situações em
que os padrões ou clusters de dados se manifestam apenas em subconjuntos específicos de
características, chamados de subespaços. Além disso, pode ocorrer que os dados originais
não possuam características relevantes, exigindo, assim, a geração de novas características
para a identificação desses subespaços. Neste sentido, esta pesquisa visa explorar duas
maneiras de lidar com conjuntos de dados de alta dimensionalidade que possuem uma
baixa quantidade de exemplos. O primeiro trabalho refere-se a uma nova abordagem de
seleção de características não supervisionadas e o segundo propõe um método de
agrupamento a partir de subespaços de dados. Para validar a eficácia dos métodos propostos,
foram realizados experimentos em conjuntos de dados reais e sintéticos. Os resultados
demonstraram que os métodos propostos tiveram um bom desempenho em comparação
com outros métodos do estado-da-arte, conforme evidenciado pelas métricas de análise de
cluster amplamente utilizadas. Testes estatísticos também foram realizados para fornecer
um suporte mais forte aos resultados relatados.