Portal de Programas de Pós-Graduação (UFPE)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGCC PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DA COMPUTAÇÃO - CIN CENTRO DE INFORMÁTICA - CIN Telefone/Ramal: Não informado E-mail: Não informado

Banca de DEFESA: MAILTON FERNANDES DE CARVALHO

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : MAILTON FERNANDES DE CARVALHO
DATA : 25/11/2021
HORA: 08:00
LOCAL: Google Meet
TÍTULO:

Um processo para construção de Tesauros de Domínio Específico no Contexto de uma Empresa de Teste de Software.

PALAVRAS-CHAVES:

Criação automática de tesauros; Inteligência Artificial; Processamento de Linguagem Natural; Recuperação de Informação.

PÁGINAS: 89
RESUMO:

Grandes empresas de software geralmente mantêm repositórios com milhares de documentos textuais (e.g., documentos de requisitos, casos de teste, solicitações de mudança de código). Contudo, devido à falta de um vocabulário padrão, muitas vezes esses documentos utilizam palavras distintas para se referir à mesma entidade no domínio da aplicação. Isso dificulta o processamento automático dos textos, principalmente em sistemas de indexação e recuperação de informação através de palavras-chaves. Devido a essas variações de terminologia, os termos usados nas consultas nem sempre estão presentes nos documentos relevantes (por exemplo, "foto" x "imagem"). Assim, a consulta não irá recuperar todos os documentos relevantes existentes, a fim de garantir a finalização adequada da atividade em curso.
Uma solução frequentemente adotada para melhorar o desempenho de sistemas de processamento de texto é a utilização de um dicionário de sinônimos (um tesauro). Esses dicionários associam termos sinônimos ou relacionados em conjuntos de termos equivalentes. Tesauros são frequentemente usados para melhorar o desempenho de sistemas de recuperação de documentos, geralmente através da expansão automática das consultas construídas pelo usuário. Essa operação adiciona termos correlacionados à consulta original, ampliando as chances do sistema recuperar documentos relevantes. Vale ressaltar que tesauros têm outros usos importantes no processamento de texto, como por exemplo melhorar o desempenho de classificadores de texto ou prover um vocabulário padrão, entre outros.
Nesse contexto, este trabalho propõe um processo para a construção automática de tesauros de domínio específico com base em documentos disponíveis em repositórios locais de empresas SW. O objetivo é evitar termos ambíguos ou não correlacionados no domínio, encontrados em tesauros genéricos (como o WordNet). O sistema implementado foi usado para gerar um tesauro de domínio específico a partir de documentos de uma empresa de teste de software. O sistema recebe como entrada documentos da empresa, como Solicitações de Mudança de código e descrições de Casos de Teste, e extrai desses documentos os termos relevantes para esse domínio específico. Em seguida, os termos relacionados são agregados em conjuntos. A seguir, o sistema usa técnicas de Processamento de Linguagem Natural, como PoS-tagging, RegEx e n-grams, para enriquecer o tesauro com termos compostos (e.g., "finger print"), acrônimos (e.g., "FP") e abreviações (e.g., "cam" para "câmera"). Finalmente, os conjuntos de palavras / termos relacionados são indexados e disponibilizados para consulta manual ou automática. O tesauro criado foi usado na expansão automática de consultas para melhorar o desempenho de dois sistemas de recuperação de documentos, apresentando resultados bastante satisfatórios. Os resultados obtidos foram relatados em um artigo científico publicado pelo SBES 2021. Este trabalho foi realizado no contexto de um projeto de cooperação em pesquisa entre a Motorola Mobility (uma empresa Lenovo) e o Centro de Informática (CIn-UFPE).

MEMBROS DA BANCA:
Presidente - 2331188 - ALEXANDRE CABRAL MOTA
Interna - 1193006 - FLAVIA DE ALMEIDA BARROS
Externo à Instituição - RAFAEL FERREIRA LEITE DE MELLO - UFRPE

Notícia cadastrada em: 12/11/2021 09:04