Portal de Programas de Pós-Graduação (UFPE)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PPGCC PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIAS DA COMPUTAÇÃO - CIN CENTRO DE INFORMÁTICA - CIN Teléfono/Ramal: No informado E-mail: No informado

Banca de DEFESA: LEVY DE SOUZA SILVA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: LEVY DE SOUZA SILVA
DATA : 07/12/2023
HORA: 14:30
LOCAL: Virtual
TÍTULO: Finding Structured Data From Text Using Language Models

PALAVRAS-CHAVES:

Tabelas Estruturadas; Recuperação de Tabelas; Correspondência de Notícias e Tabelas; Compreensão de Notícias; Busca por Conjunto de Dados; Geração de Consultas; Modelos de Linguagem.

PÁGINAS: 118
RESUMO:

A Internet é uma rica fonte de informação estruturada. De tabelas HTML até coleções de dados públicos, existe um enorme conjunto de dados relacionais online. Estudos anteriores estimam que mais de 100 milhões de tabelas, em formato HTML, podem ser encontradas na Internet. Não se limitando a estas, um grande número de repositórios de dados fornecem acesso a milhares de coleções estruturadas. Como resultado, nos últimos anos, vários estudos exploram estes dados em diversas aplicações. Por exemplo, tabelas HTML são utilizadas para a tarefa de perguntas e respostas, onde o objetivo é recuperar uma tabela que responda a uma pergunta de uma coleção de tabelas. No contexto de dados públicos, a principal aplicação é a busca por conjunto de dados, que encontra uma coleção de dados para um usuário final. O ponto de intersecção destas tarefas é a correspondência de dados estruturados e não estruturados, além de uma tarefa de classificação. Ademais, o principal desafio é construir um modelo robusto para calcular a similaridade entre perguntas e tabelas. Nesse contexto, este trabalho de tese está dividido em três partes. Na primeira, exploramos o problema de recuperação de tabelas para perguntas e respostas, sumarizando as melhores soluções para esta tarefa. Em seguida, introduzimos uma nova tarefa para correlação de notícias e tabelas, aplicadas para expandir o conteúdo das notícias. Por fim, focamos na tarefa de busca por conjuntos de dados. Especificamente, as principais contribuições desta tese são: (I) nós apresentamos uma nova taxonomia para a tarefa de recuperação de tabelas que classifica os métodos em cinco grupos, desde abordagens probabilísticas até redes neurais sofisticadas. Este estudo também aponta que os melhores resultados para esta tarefa são alcançados por meio de modelos de redes neurais profundas, utilizando redes recorrentes e arquiteturas convolucionais; (II) nós introduzimos um novo modelo de atenção baseado em BERT para calcular o grau de similaridade entre notícias e tabelas, além de comparar seu desempenho com técnicas de recuperação de informação, codificadores de sentenças e documentos, modelos de correspondência de textos e abordagens de redes neurais. Em resumo, um teste de hipótese confirma que nossa abordagem supera todos os outros modelos considerando uma métrica de classificação média; e (III) nós propomos DAPDR, uma solução que usa modelos de linguagens para criar perguntas sintéticas para coleções de dados, que são aplicadas no treinamento de modelos supervisionados. Por fim, DAPDR é avaliado utilizando dados experimentais para esta tarefa e modelos densos de recuperação de informação, cujos principais resultados mostram que os modelos ajustados em DAPDR superam estatisticamente os modelos originais em diferentes níveis de NDCG.

MEMBROS DA BANCA:
Interno - 1412012 - FERNANDO MACIANO DE PAULA NETO
Presidente - 2886196 - LEANDRO MACIEL ALMEIDA
Externa à Instituição - MIRELLA MOURA MORO - UFMG
Externo à Instituição - RAFAEL FERREIRA LEITE DE MELLO - UFRPE
Externo à Instituição - RODRIGO FRASSETTO NOGUEIRA - UNICAMP

Notícia cadastrada em: 10/11/2023 11:31