Banca de DEFESA: DAYVID WELLES DE CASTRO OLIVEIRA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: DAYVID WELLES DE CASTRO OLIVEIRA
DATA : 25/03/2024
HORA: 09:00
LOCAL: Centro de Informática - Auditório
TÍTULO:

An End-to-End Approach for Handwriting Recognition: From 
Handwritten Text Lines to Complete Manuscripts


PALAVRAS-CHAVES:

Escrita. Reconhecimento de Texto Manuscrito. Reconhecimento 
de Documentos Manuscritos. Redes Neurais Profundas.


PÁGINAS: 134
RESUMO:

Esta tese investiga modelos inovadores para o Reconhecimento de Texto 
Manuscrito (em inglês, Handwritten Text Recognition ou HTR), abordando a 
complexidade de transcrever imagens de documentos manuscritos para texto 
digital. A tarefa de HTR tem sido um tópico central de pesquisa no campo de 
análise e reconhecimento de documentos ao longo das últimas décadas e 
permanece um desafio atual com contínuos estudos que buscam otimizar os 
sistemas de reconhecimento. Essa tarefa evoluiu seguindo uma tendência de 
remover restrições e suposições no processo de reconhecimento. Os primeiros 
estudos se limitavam ao reconhecimento de caracteres ou dígitos, e hoje 
existem soluções capazes de lidar com uma página manuscrita completa. Como 
resultado dessa tendência, o Reconhecimento de Documentos Manuscritos 
surgiu como uma tarefa desafiadora que integra o reconhecimento de texto e 
informações de layout para reconhecer manuscritos de ponta a ponta. Este 
trabalho apresenta como primeira contribuição o modelo Octave Convolutional 
Recurrent Neural Network para reconhecer linhas isoladas de texto, que está 
em consonância com o estado da arte em reconhecimento de linhas enquanto 
reduz os requisitos computacionais. Ainda assim, a solução inicial requer 
imagens de linhas pré-segmentadas, que nem sempre estão disponíveis. 
Portanto, a segunda contribuição explora o reconhecimento de documentos 
manuscritos livre de segmentação através do DANCER, um modelo inovador que 
melhora a eficiência computacional enquanto mantém acurácia robusta. O 
modelo se distingue das abordagens existentes com sua estrutura única 
encoder-decoder, onde o encoder reduz a redundância espacial e melhora a 
atenção espacial, e o decoder, um modelo Transformer, decodifica o texto de 
maneira eficiente usando operações de atenção otimizadas. Este design 
resulta em um modelo eficiente capaz de transcrever e compreender 
documentos manuscritos com layouts complexos. A eficácia do DANCER foi 
avaliada em um conjunto de dados históricos desafiador, considerando o 
reconhecimento de documentos de uma e duas páginas. Dentre os benefícios do 
DANCER identificados nos experimentos, destacam-se sua eficiência de 
memória, escalabilidade para documentos mais longos, além de apresentar 
treinamento e inferência mais rápidos que modelos anteriores. Este trabalho 
não apenas avança o estado da arte em HTR, mas define bases para futuras 
explorações em sistemas de reconhecimento de documentos manuscritos.


MEMBROS DA BANCA:
Interno - 1699034 - ADRIANO LORENA INACIO DE OLIVEIRA
Externo à Instituição - ALCEU DE SOUZA BRITTO JÚNIOR - PUCPR
Presidente - 1512321 - GEORGE DARMITON DA CUNHA CAVALCANTI
Externo à Instituição - LUIZ EDUARDO SOARES OLIVEIRA - UFPR
Interno - 1511095 - TSANG ING REN
Notícia cadastrada em: 28/02/2024 07:38
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2024 - UFRN - sigaa08.ufpe.br.sigaa08