Banca de DEFESA: LEILANE CRUZ CORREIA DE LIMA

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE: LEILANE CRUZ CORREIA DE LIMA
DATA : 30/06/2025
HORA: 14:00
LOCAL: Centro de Informática Sala E-113
TÍTULO:

Atenção, exclamação? Mineração de texto pela detecção estilística 
de fake news em dois idiomas


PALAVRAS-CHAVES:

Detecção estilística. Fake news. Pré-processamento. TF-IDF. 
LLMs. Mineração de Texto


PÁGINAS: 112
RESUMO:

Ao ler um texto, um ser humano capta elementos estruturais que indicam sua 
funcionalidade: é um texto informativo? de humor? literário? Foi assim 
desde a consolidação da linguagem escrita e não há indícios de mudança 
neste caminho. Com a popularização da internet, ainda novos gêneros 
textuais, com outras funcionalidades, somaram-se à gama de funções 
possíveis para o texto escrito. Especificamente, desde 2016 notícias 
escritas com o objetivo de distorcer ou fabricar fatos vêm sendo publicadas 
e distribuídas de maneira sistemática dentro de estratégias de marketing 
político. Por isso, entende-se que as chamadas fake news são um gênero 
textual habitante do meio digital com origens analógicas, na forma notícia 
do jornalismo tradicional. Longe de ser um fenômeno inédito, ele se 
apresenta de forma renovada em um novo ambiente. Do jornal impresso para 
plataformas online, agora as notícias falsas são distribuídas em massa e 
precisam ser combatidas automaticamente com ferramentas computacionais. 
Nesse cenário, a tarefa de detecção de notícias falsas é complexa e vem 
sendo abordada crescentemente e por diversas estratégias. Este trabalho 
explora a mineração de texto como metodologia para entender as 
potencialidades de uma dessas estratégias, a detecção estilística. Volta-se 
o olhar para as consagradamente descartadas stopwords e pontuações, de modo 
que, ao caminhar junto aos dados com o auxílio das etapas da CRISP-DM, 
analisaremos a presença de conectivos e, por que não, das interrogações e 
exclamações tão típicas das fake news. Os experimentos usam modelos de 
aprendizagem clássica e ensemble, e incorporam os datasets Fake.br (em 
português) e ISOT (em inglês) representados por extratores de 
característica basedos em frequência (TF-IDF) e contextuais (XLM, 
XLM-RoBERTa, BERT). O TF-IDF é usado para computar diferentes tipos 
de "tokenização", inclusas a BPE, SentencePiece e WordPiece, dos 
respectivos LLMs escolhidos. Os resultados obtidos indicam que explorar 
esta forma não-usual de pré-processamento e considerar diferentes tipos 
de "tokenização"e extração de características pode contribuir para a tarefa 
de detecção de fake news, pois, por ora, são textos que se adequam a ou se 
espelham na forma notícia jornalística.


MEMBROS DA BANCA:
Externo à Instituição - MÁRCIO MORETTO RIBEIRO - USP
Presidente - 1193006 - FLAVIA DE ALMEIDA BARROS
Interna - 2199306 - PATRICIA CABRAL DE AZEVEDO RESTELLI TEDESCO
Externo à Instituição - PAULO FALTAY FILHO - OUTRA
Notícia cadastrada em: 06/06/2025 10:25
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2025 - UFRN - sigaa02.ufpe.br.sigaa02