Atenção, exclamação? Mineração de texto pela detecção estilística
de fake news em dois idiomas
Detecção estilística. Fake news. Pré-processamento. TF-IDF.
LLMs. Mineração de Texto
Ao ler um texto, um ser humano capta elementos estruturais que indicam sua
funcionalidade: é um texto informativo? de humor? literário? Foi assim
desde a consolidação da linguagem escrita e não há indícios de mudança
neste caminho. Com a popularização da internet, ainda novos gêneros
textuais, com outras funcionalidades, somaram-se à gama de funções
possíveis para o texto escrito. Especificamente, desde 2016 notícias
escritas com o objetivo de distorcer ou fabricar fatos vêm sendo publicadas
e distribuídas de maneira sistemática dentro de estratégias de marketing
político. Por isso, entende-se que as chamadas fake news são um gênero
textual habitante do meio digital com origens analógicas, na forma notícia
do jornalismo tradicional. Longe de ser um fenômeno inédito, ele se
apresenta de forma renovada em um novo ambiente. Do jornal impresso para
plataformas online, agora as notícias falsas são distribuídas em massa e
precisam ser combatidas automaticamente com ferramentas computacionais.
Nesse cenário, a tarefa de detecção de notícias falsas é complexa e vem
sendo abordada crescentemente e por diversas estratégias. Este trabalho
explora a mineração de texto como metodologia para entender as
potencialidades de uma dessas estratégias, a detecção estilística. Volta-se
o olhar para as consagradamente descartadas stopwords e pontuações, de modo
que, ao caminhar junto aos dados com o auxílio das etapas da CRISP-DM,
analisaremos a presença de conectivos e, por que não, das interrogações e
exclamações tão típicas das fake news. Os experimentos usam modelos de
aprendizagem clássica e ensemble, e incorporam os datasets Fake.br (em
português) e ISOT (em inglês) representados por extratores de
característica basedos em frequência (TF-IDF) e contextuais (XLM,
XLM-RoBERTa, BERT). O TF-IDF é usado para computar diferentes tipos
de "tokenização", inclusas a BPE, SentencePiece e WordPiece, dos
respectivos LLMs escolhidos. Os resultados obtidos indicam que explorar
esta forma não-usual de pré-processamento e considerar diferentes tipos
de "tokenização"e extração de características pode contribuir para a tarefa
de detecção de fake news, pois, por ora, são textos que se adequam a ou se
espelham na forma notícia jornalística.