Extração, Classificação e Priorização de Reclamações de
Consumidores em SACs Online Baseados em Texto
SAC; Extração de Informação; Aprendizagem de Máquina;
Classificação.
Os serviços de atendimento ao consumidor (SACs) são canais de comunicação
entre uma empresa e seus consumidores, possibilitando que os clientes tirem
dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com
o advento da Internet e das redes sociais, grande parte do contato é feito
online através de canais descentralizados que geram uma enorme quantidade
de informação textual a ser analisada. Consumidores insatisfeitos e que não
se sentem priorizados tendem a se afastar e tomar ações que possam
influenciar negativamente na imagem da empresa. Nesse contexto, este
trabalho de mestrado propõe um processo para auxiliar as empresas a lidar
com essa grande quantidade de reclamações que ficam expostas na Web através
do processamento automático dos textos das reclamações. A solução proposta
se baseia em uma estratégia de extração automática das reclamações postadas
pelos consumidores em sites específicos, seguida de classificação e
ranqueamento dessas reclamações, a fim de priorizar as críticas
consideradas mais relevantes (i.e., com maior potencial de prejuízo) no
momento. O processo proposto foi implementado em três etapas distintas.
Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza
um scrapping para extração das reclamações a partir de sites na Web. O
código foi desenvolvido em Python com o auxílio do framework Selenium. O
site escolhido para o protótipo inicial foi o “ReclameAqui”. A partir dos
dados extraídos, foi criado um corpus contendo reclamações que foram
etiquetadas manualmente por pessoas com experiência no domínio de
atendimento ao consumidor, também foi realizado um pré-processamento
textual. A seguir, foi desenvolvido um classificador de texto baseado em
Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados
diversos experimentos buscando encontrar a combinação de melhor desempenho
dentre as opções disponíveis. A configuração que utiliza TF-IDF para
transformação de texto, K-Fold Cross Validation no treinamento e Regressão
Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de
82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado
também realiza o ranqueamento das reclamações prioritárias, oferecendo
ainda a possibilidade de exportação das reclamações de forma ordenada.