Meta-scaler+: a meta-learning based solution for model-specific
recommendations of scaling techniques
Classificação, Preprocessamento, Scaling, Normalização,
Meta-aprendizagem, AutoML.
A normalização (scaling) de conjuntos de dados é uma etapa essencial de
pré-processamento em um pipeline de aprendizado de máquina. Ela visa
ajustar as escalas de atributos de forma que todos variem dentro do mesmo
intervalo. Essa transformação é amplamente reconhecida como necessária para
melhorar o desempenho dos modelos de classificação, mas muito poucos
estudos verificam empiricamente essa relação. Como primeira contribuição,
esta tese compara os impactos de diferentes técnicas de scaling (STs) no
desempenho de vários classificadores. Seus resultados mostram que a escolha
da técnica de scaling importa para o desempenho da classificação, e a
diferença de desempenho entre a melhor e a pior técnica é relevante e
estatisticamente significativa na maioria dos casos. No entanto, há várias
STs para escolher, e o processo de encontrar manualmente, por tentativa e
erro, a técnica mais adequada para um determinado conjunto de dados pode
ser inviável.
Como alternativa, propomos empregar meta-aprendizagem para selecionar
automaticamente a melhor ST para um determinado conjunto de dados.
Portanto, em nosso segundo estudo, propomos o Meta-scaler, um framework que
aprende e treina um conjunto de meta-modelos para representar a relação
entre meta-características extraídas dos conjuntos de dados e o desempenho
de um conjunto de algoritmos de classificação nesses conjuntos de dados
quando eles são normalizados com diferentes técnicas. Esses meta-modelos
são capazes de recomendar uma única ST ótima para um determinado conjunto
de dados de consulta, levando em consideração também o classificador de
consulta. O Meta-scaler produziu melhor desempenho de classificação do que
qualquer escolha de uma única ST para 10 dos 12 modelos base testados e
também superou os métodos de meta-aprendizagem do estado da arte para
seleção de ST.
Finalmente, em nosso terceiro estudo, propomos o Meta-scaler+, onde
estendemos a funcionalidade do Meta-scaler, eliminando suas limitações ao
introduzir um método inovador de caracterização de classificadores, o
Classifiers' Space, que nos permite combinar dinamicamente meta-modelos
para recomendações especializadas de ST para qualquer classificador e
conjunto de dados. Apesar da flexibilidade adicional, o desempenho do
Meta-scaler+ é competitivo com o Meta-scaler e superior a outras soluções
do estado da arte. Para as próximas etapas do desenvolvimento desta
pesquisa, investiremos na melhoria da representação do conjunto de dados
(meta-recursos), melhorando a inicialização do Classifiers' Space e
tornando o Meta-scaler+ uma ferramenta prática e acessível, permitindo sua
integração com bibliotecas populares de aprendizado de máquina.