Validacao de Criterios de Aceitacao usando LLM: Uma Analise Baseada
em Guidelines de UX
Experiência do Usuário, Histórias de Usuário, Critérios de
Aceitação, Modelos de Linguagens Grandes
[Contexto] A crescente complexidade dos projetos digitais têm motivado o
uso de recursos automatizados para apoiar times ágeis, especialmente em
tarefas relacionadas à Engenharia de Requisitos (ER). O recente avanço das
inteligências artificiais generativas oferece uma nova possibilidade para
reduzir o esforço manual e mitigar falhas no fluxo de trabalho de
desenvolvimento de software. Em projetos que priorizam à Experiência do
Usuário (UX), os critérios de aceitação, presentes nas histórias de
usuário, são peças-chaves para assegurar o alinhamento entre as
expectativas de qualidade e satisfação com a solução entregue. Dado a sua
importância, a validação adequada desses critérios configura-se como uma
demanda necessária para as boas práticas de desenvolvimento. Nesse
contexto, a adoção de padrões de prompts e interação com grandes modelos de
linguagem (LLM) para apoiar o gerenciamento de projetos surge como uma
alternativa promissora que pode facilitar tomadas de decisão e aprimorar a
consistência das entregas. [Problema] No entanto, embora promissoras, as
soluções atuais ainda carecem de recursos automatizados capazes de validar
requisitos sob a perspectiva da experiência do usuário de forma confiável,
técnica e contextualizada. As iniciativas disponíveis se concentram na
verificação de requisitos funcionais e aspectos estruturais do software,
eximindo atributos essenciais de UX como feedback visual, acessibilidade,
organização da interface e comportamento interativo. Essa limitação
evidencia uma lacuna significativa na literatura e nas práticas de mercado.
[Método] Diante desse cenário, este estudo propôs realizar um estudo
empírico que buscou avaliar a aplicação de dois LLMs, ChatGPT 4.0 e Gemini
2.5 Flash, como ferramentas de apoio a times de desenvolvimento na escrita
e validação de critérios de aceitação modelados no padrão Behavior Driven
Development (BDD) e orientados por guidelines de UX. A abordagem foi
estruturada a partir da criação de um prompt instrucional desenvolvido com
as técnicas de Chain-of-Thought (CoT) Prompting, Instructional Prompting e
Few-Shot Prompting. Como método, adotou-se uma análise de concordância,
precisão técnica e explicabilidade para mensurar a capacidade das IAs em
identificar recomendações adequadas, comparando os resultados obtidos com a
avaliação de uma pesquisadora especialista. Foram analisados 20 critérios
de aceitação, desenvolvidos por quatro equipes de alunos de graduação,
totalizando 247 recomendações emitidas pelas duas IAs. [Resultados] Os
resultados revelaram que as IAs demonstraram boa capacidade técnica na
recomendação de diretrizes, embora tenham apresentado variações
consideráveis na concordância com a especialista humana e na consistência
das justificativas fornecidas. Critérios de aceitação mais objetivos e
completos favoreceram o desempenho das IAs, enquanto critérios menos
estruturados ou que exigiam inferências sobre aspectos visuais e
organizacionais resultaram em maior divergência. O estudo conclui que as
IAs avaliadas possuem potencial como ferramenta assistiva, mas demandam
refinamento para alcançar níveis elevados de confiabilidade e
contextualização para validação autônoma de critérios de aceitação com foco
em UX.