Avaliação de técnicas de Combinação de Embeddings para a Análise de
Sentimentos de Produtos escritos em Português-BR
Análise de Sentimentos. Word Embeddings. Aprendizagem de
Máquina. Aprendizagem Profunda. Classificação de múltiplas classes. Meta-Embeddings
A Análise de Sentimentos é uma área de pesquisa voltada para a
determinação da polaridade do sentimento presente em um texto, buscando
identificar se a informação é de caráter positivo, negativo ou neutro,
dentre outras formas de classificação. Com o expressivo volume de
informações textuais que circulam na web diariamente, o processo de
análises automáticas dos sentimentos torna-se ainda mais necessário. Para
conteúdos relacionados à avaliação de produtos e serviços, a detecção de
sentimentos é de grande relevância, uma vez que entender a mensagem que um
consumidor está querendo passar sobre um produto é essencial para as
empresas por diversos fatores, dentre eles campanhas de marketing e
melhoria no relacionamento com seus clientes. Nesse cenário, o estudo das
formas de melhorar a representação das informações textuais, de modo que
elas sejam processadas através de modelos de aprendizagem de máquina, é de
extrema importância para contribuir com o aumento de performance na
classificação dos sentimentos presentes nos textos. Diante disto, o
presente trabalho realiza um estudo experimental do comportamento de
diferentes técnicas de vetorização de textos, com foco nos embeddings:
vetores representativos compostos por valores reais capazes de armazenar
informações sintáticas e semânticas das palavras. Para isso, são avaliados
diferentes tipos de vetores de embeddings e três formas de combinação
desses vetores, que são utilizados no processo de classificação de cinco
diferentes algoritmos de aprendizagem de máquina. Além disso, também é
utilizado um algoritmo de aprendizagem profundo onde a etapa de embedding é
realizada pela própria camada da rede neural. Com o intuito de contribuir
com a Análise de Sentimentos de textos em Português-BR, foram estudadas
quatro bases de dados neste idioma: Buscapé, B2W, Olist e UTL Movies. Essas
bases são compostas por avaliações de usuários reais da web sobre produtos
e serviços. Os resultados encontrados nessa pesquisa mostraram que nem
todos os algoritmos de aprendizagem de máquina sofrem impacto diante da
mudança na técnica de vetorização, porém quando pelo menos duas técnicas
são combinadas a partir da concatenação entre seus vetores de pesos, é
possível obter melhoria na performance de algoritmos comumente utilizados
na área de aprendizagem de máquina, como a MLP e o XGBoost