Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
Estilometria. Atribuição de autoria. Classificação de atividades pedagógicas. Extração de features estilométricas.
O aumento no volume de documentos digitais associado ao seu uso em várias
áreas de conhecimento demandam recursos computacionais para sua compreensão
e análise. Em casos de verificação ou atribuição de autoria, é necessário
confirmar ou identificar os autores do texto. A literatura propõe
promissoras abordagens que associam aprendizagem de máquina e processamento
de linguagem natural para distinguir os autores pelo seu estilo de escrita.
Estes trabalhos envolvem majoritariamente contextos literários ou
jornalísticos e textos em inglês. Por outro lado, no contexto educacional,
poucos trabalhos exploram a análise de autoria como ferramenta de apoio à
verificação de aprendizagem dentro da língua portuguesa. Tal cenário é
desafiador, pois apresenta um baixo volume de documentos por autor, um
conjunto de autores mais homogêneos e restrições de formato, tema e idioma.
Este trabalho explora técnicas e abordagens reconhecidas na literatura,
como modelos de aprendizagem de máquina, técnicas para representação de
documentos e extração de características estilométricas, com propósito de
apoiar a análise de autoria em uma base de dados composta por atividades
pedagógicas de estudantes de graduação. Devido ao volume de exemplos,
utilizamos bases de dados jornalísticas mais robustas como referência. Por
meio dos experimentos, foi verificado que em domínios restritos,
representações baseadas em características de estilo são superiores à
abordagens meramente textuais, que sofrem maior influência do tópico em
corpora mais abrangente. Este trabalho revelou que o modelo Extremelly
Randomized Trees foi superior aos demais modelos, como Naive Bayes, SVM,
Random Forest, Regressão logística, Redes neurais em todas as bases
utilizadas, alcançando uma média de 0.70 na taxa de acerto e AUC 0.81. Além
disso, o trabalho detalha sua metodologia para extração de características
de estilo por meio do processamento de linguem natural e quais destas mais
se destacaram durante os experimentos de acordo com seus valores Shapley.