Improving Binary Classifiers on Imbalanced Data Using Large
Language Models
Aumento de Dados. Aprendizado por Indução. Balanceamento de
Dados. Grandes Modelos de Linguagem.
Em tarefas de classificação do mundo real, é comum lidarmos com dados desbalanceados. Neste trabalho, propomos o BALANCE, um framework que gera dados sintéticos para a classe minoritária para balancear conjuntos de dados textuais para classificação
binária. Ele faz isso usando o aprendizado baseado em prompt. Mais eficiente, o BALANCE otimiza os parâmetros de decodificação de um determinado modelo de linguagem
para produzir texto adaptado à classe minoritária. Em seguida, ele usa um prompt específico para gerar as instâncias usando o modelo de linguagem otimizado. Realizamos
uma extensa avaliação experimental usando três conjuntos de dados desbalanceados de
classificação de texto do mundo real. Os resultados mostram que o BALANCE supera as
abordagens que lidam com criação/desbalanceamento de dados na maioria dos cenários,
confirmando a alta qualidade das instâncias geradas.