Banca de DEFESA: CHAINA SANTOS OLIVEIRA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: CHAINA SANTOS OLIVEIRA
DATA : 19/06/2023
HORA: 09:00
LOCAL: Virtual
TÍTULO:

A Two-Level Item Response Theory Model to Evaluate Automatic Speech 
Synthesis and Recognition Systems


PALAVRAS-CHAVES:

Teoria de Resposta ao Item. Avaliação de Benchmark de Fala. Avaliação de Reconhecimento da Fala. Avaliação de Síntese de Fala. Qualidade da fala.


PÁGINAS: 106
RESUMO:

Sistemas de reconhecimento da fala têm se tornado populares em diversas aplicações. Idealmente, tais sistemas devem ser testados em diferentes cenários, com diversos tipos de falas, sentenças e locutores. Adquirir dados de teste a partir de falas humanas gravadas é custoso em questão de tempo. Uma alternativa é usar ferramentas text-to-speech (TTS) para sintetizar áudios dado um conjunto de sentenças e locutores virtuais. Desta forma, o sistema que está sendo testado recebe um áudio sintetizado, faz a transcrição e os erros de transcrição são coletados para posterior avaliação. Apesar da grande disponibilidade de serviços de síntese da fala, nem todas as falas sintetizadas têm a mesma qualidade. É importante avaliar a utilidade dos locutores e das sentenças para a avaliação do sistema de reconhecimento da fala. Assim, este trabalho propõe um modelo de Teoria de Resposta ao Item (TRI) de dois níveis para avaliar locutores, sentenças e sistemas de reconhecimento da fala, o que é original na literatura. TRI é uma abordagem da psicometria para estimar a habilidade de respondentes humanos, tendo como base as suas respostas a itens com diferentes níveis de dificuldade. No primeiro nível do modelo proposto, um item é uma fala sintética, um respondente é um sistema de reconhecimento da fala, e cada resposta é a acurácia da transcrição de uma fala sintetizada por um sistema de reconhecimento da fala. Um modelo de TRI é, então, usado para estimar a dificuldade de cada fala sintetizada e a habilidade do sistema de reconhecimento da fala. No segundo nível, a dificuldade de cada fala sintética é decomposta em dois fatores: a dificuldade da sentença e a qualidade do locutor. A dificuldade da fala sintética tende a ser alta quando ela é gerada a partir de uma sentença difícil e um locutor ruim. A habilidade de um sistema de reconhecimento da fala é alta quando ele é robusto a falas difíceis. Antes de executar experimentos com o modelo TRI de dois níveis proposto neste trabalho, nós executamos um estudo de caso preliminar para verificar a viabilidade de aplicar TRI no contexto de avaliação da fala. Nesta experimentação inicial, um modelo TRI de um nível foi usado para avaliar 62 locutores (de quatro sistemas de síntese da fala) e 12 sentenças. Os resultados mostraram a relevância de aplicar TRI para avaliar sentenças e locutores dentro deste contexto, o que nos estimulou a elaborar outros estudos de caso. Em seguida, desenvolvemos o modelo TRI de dois níveis e executamos experimentos usando tal abordagem. Desta vez, quatro sistemas de reconhecimento da fala foram adotados para transcrever as falas sintéticas resultantes de 100 sentenças de benchmark e 75 locutores. Os experimentos mostraram como a qualidade da síntese e reconhecimento das falas pode ser afetada por fatores diversos, como a dificuldade da sentença e a habilidade dos locutores. Também exploramos o impacto de pitch, rate e da inserção de ruído na estimação dos parâmetros e no desempenho dos sistemas.


MEMBROS DA BANCA:
Externo à Instituição - JUGURTA ROSA MONTALVAO FILHO - UFS
Interno - 1512321 - GEORGE DARMITON DA CUNHA CAVALCANTI
Externa à Instituição - GISELE LOBO PAPPA - UFMG
Externo à Instituição - RONNIE CLEY DE OLIVEIRA ALVES - UFPA
Presidente - 1511095 - TSANG ING REN
Notícia cadastrada em: 24/05/2023 10:40
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2024 - UFRN - sigaa09.ufpe.br.sigaa09