Uma estrategia para Selecao de Atributos em Dados Nao Parametricos com Aplicacoes em Aprendizado de Maquina
Seleção de Características. Técnicas não paramétricas.
Desempenho de sistemas. Redução de Dimensionalidade.
A análise de dados não paramétricos, desbalanceados e de alta
dimensionalidade é um desafio recorrente em diversas aplicações de
Aprendizado de Máquina (AM), onde métodos tradicionais de seleção de
atributos (Feature Selection - FS) frequentemente falham devido a
suposições restritivas (como normalidade dos dados) ou alto custo
computacional. Este trabalho propõe uma estratégia abrangente de FS para
sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta
e escalável. O modelo é estruturado em três estágios: filtragem,
clusterização e ranqueamento, utilizando métricas adaptadas como entropia
de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e
informação mútua ajustada (AMI), que dispensam premissas rígidas sobre a
distribuição dos dados. Implementado em Python, o algoritmo foi validado
experimentalmente em múltiplos cenários, incluindo estudos de caso em
cibersegurança com bases de dados reais de tráfego de rede e ataques
cibernéticos, empregando classificadores como RandomForest, validação
cruzada (10-fold) e testes estatísticos não paramétricos (Friedman e
Nemenyi). Os resultados demonstraram redução média de 81,5% na
dimensionalidade sem comprometer a exatidão, com superioridade estatística
(p-valor < 0,05) em métricas como acurácia, F1-score e AUC-ROC em
comparação a métodos tradicionais, além de reduzir o tempo de processamento
em até 3,8 vezes. A estabilidade das seleções atingiu mais de 90% de
concordância, evidenciando a confiabilidade do modelo. A estratégia
proposta não apenas melhora a eficiência computacional e a performance
preditiva em problemas complexos, mas também amplia a explicabilidade e
adaptabilidade a domínios com dados heterogêneos, oferecendo uma
alternativa para a seleção de atributos em cenários onde dados não
paramétricos são predominantes.