Métodos de agrupamento difuso para dados simbólicos poligonais
Análise de Dados Simbólicos, Dados Poligonais, Agrupamento
Difuso, Distância Adaptativa, Despesas com Saúde Pública
Diante do grande volume de dados e da elevada capacidade computacional
necessária para analisá-los, a Análise de Dados Simbólicos (ADS) surge como
um paradigma poderoso para auxiliar na redução da dimensionalidade por meio
da agregação dos dados, preservando, contudo, informações importantes das
observações originais. Dentre as abordagens simbólicas, os dados poligonais
se destacam por sua capacidade de encapsular de forma mais rica a
informação de dados agregados, superando as limitações dos dados
intervalares, especialmente em cenários com distribuições não uniformes.
Embora a literatura recente tenha introduzido um algoritmo de agrupamento
dinâmico rígido (pDCA) para este tipo de dado, a inflexibilidade da
alocação exclusiva de objetos a clusters limita a análise de estruturas de
dados ambíguas ou sobrepostas.
Nesse contexto, o objetivo principal deste trabalho é desenvolver e
formalizar algoritmos de agrupamento difuso para dados simbólicos
poligonais, visando oferecer maior flexibilidade e robustez à análise de
agrupamento. Partindo do algoritmo pDCA e sua métrica de similaridade,
propõe-se inicialmente o Algoritmo de agrupamento difuso poligonal (FpDCA),
o qual estende o método rígido ao incorporar o conceito de graus de
pertinência, permitindo que cada polígono pertença a múltiplos clusters
simultaneamente, com base em metodologias consolidadas do fuzzy c-means.
Adicionalmente, o trabalho avança para o desenvolvimento do Algoritmo de
agrupamento difuso poligonal adaptativo (AFpDCA), no qual se introduz um
mecanismo de ponderação que atribui um peso de relevância para cada
variável em cada cluster, permitindo que o algoritmo aprenda
automaticamente quais características são mais importantes para a formação
de cada grupo específico.
A metodologia será validada por meio de experimentos com dados sintéticos
gerados em diferentes cenários para avaliar a performance e a robustez dos
algoritmos propostos. Para demonstrar a aplicabilidade e usabilidade
metodologia, será conduzido um estudo de caso inédito com dados reais sobre
as despesas com saúde pública no Brasil, os quais, originalmente referentes
aos municípios, serão agregados por unidades federativas, dando origem às
variáveis poligonais. O objetivo da aplicação é utilizar o AFpDCA para
identificar e caracterizar perfis distintos de gastos com saúde no país,
revelando quais tipos de despesas são mais determinantes para a formação de
cada perfil e, assim, gerando insights valiosos para a gestão pública e o
planejamento de políticas de saúde.