Análise Automatizada de Discussões Online Baseada no Framework de
Comunidade de Investigação: Classificação da Presença Cognitiva com
Técnicas de Processamento de Linguagem Natural
Comunidade de Investigação, Análise de Fóruns Online,
Aprendizagem de Máquina, Learning Analytics
Com o estabelecimento do ensino a distância como modelo educacional,
diversas ferramentas foram desenvolvidas com o objetivo de proporcionar uma
experiência de ensino semelhante à do ensino presencial. Entre essas
ferramentas, destacam-se os fóruns de discussão, que oferecem aos alunos um
ambiente para construção de conhecimento, interação social e
compartilhamento de informações. Técnicas de aprendizagem de máquina também
vêm sendo empregadas para fornecer classificações dos níveis de
desenvolvimento social e cognitivo dos alunos, baseadas nas interações
ocorridas nos fóruns educacionais. A criação desses classificadores depende
de diversos aspectos (características) para aumentar a acurácia dos modelos
treinados; contudo, esses modelos são altamente dependentes da quantidade e
qualidade dos dados anotados no conjunto de treinamento. A anotação desses
dados é um trabalho intensivo que depende de vários especialistas de
domínio e, além disso, há uma escassez de dados devido à dificuldade de
aquisição em larga escala de dados educacionais.
Este trabalho investiga a aplicação de técnicas de aprendizagem de máquina
para a análise automatizada de discussões online em ambientes virtuais de
aprendizagem, utilizando o modelo Comunidade de Investigação (CoI).
Explora-se a viabilidade de métodos automáticos para a identificação da
presença cognitiva em fóruns de discussão, visando entender e otimizar a
construção de conhecimento em contextos educacionais à distância. Foram
utilizados diferentes modelos de aprendizado de máquina, incluindo Random
Forest, XGBoost, MLP, além de abordagens de aumento de dados com BERT e
GPT-4 para lidar com o desbalanceamento das categorias da presença
cognitiva. As características textuais foram extraídas utilizando
ferramentas como LIWC, Coh-Metrix e análise de redes sociais (SNA),
proporcionando uma representação abrangente das interações e conteúdos
discutidos, além de modelos de linguagem focados em codificação, como o
DeBERTa. Os resultados mostram que a combinação de técnicas de aprendizado
ativo tem grande potencial para o problema abordado, considerando a
limitação de dados na área educacional, especialmente em relação aos dados
anotados. Conseguimos atingir um coeficiente de Cohen's Kappa de 0.43 e uma
acurácia de 0.60 com aprendizado ativo utilizando Random Forest sem
aumentação de dados. Esta pesquisa contribui para o avanço das metodologias
de análise automatizada em ambientes de aprendizagem online, abrindo
possibilidades para a utilização das técnicas desenvolvidas no
monitoramento e apoio ao desenvolvimento cognitivo dos alunos, promovendo
uma melhor experiência de aprendizagem no ensino à distância.