MACHINE LEARNING AND READABILITY IN
ACCOUNTING: AN ENSEMBLE LEARNING APPROACH
Informatividade. Aprendizado de Máquinas. Informação contábil. LLM.
Este estudo emprega o FinBERT-PT-BR, um modelo de linguagem baseado em trans-
formadores treinado em textos financeiros em português do Brasil, para desenvolver um
Índice de Informatividade, concebido para quantificar o valor informacional das divulgações
financeiras. O conjunto de dados é composto por 26.804 notas explicativas anuais de 1.152
companhias abertas brasileiras, abrangendo um período de 12 anos (2011–2023). Além o
índice, são calculadas as medidas tradicionais de legibilidade, Flesch-Kincaid Reading Ease,
Índice de Fog, Índice SMOG e Índice de Loughran-McDonald, para cada nota. Em seguida,
aplicam-se modelos de aprendizado de máquina (Random Forest e Gradient Boosting) para
avaliar qual dessas métricas de legibilidade melhor representa o índice de informatividade
derivado das três dimensões fundamentais: Padronização (Boilerplateness), Completude
e Densidade. As análises de importância das variáveis nos diferentes modelos indicam
que o Índice de Loughran-McDonald é o que mais se aproxima da variação do índice de
informatividade, sugerindo que ele é a proxy mais eficaz para mensurar a legibilidade dos
textos financeiros em português. Esse resultado com base em evidência empírica implica
mudanças sobre a relação teórica entre complexidade textual e ofuscação informacional sob
a ótica da teoria da agência. A pesquisa contribui para a literatura ao integrar modelos de
linguagem e técnicas de aprendizado de máquina ao estudo da qualidade das divulgações
financeiras em português, um contexto linguístico e regulatório ainda pouco explorado,
utilizando um banco de dados extenso. Pesquisas futuras podem ampliar essa abordagem
ao incorporar modelos multilíngues, avaliações humanas ou embeddings híbridos, de modo
a aprimorar e validar o conceito de informatividade.