Modelos Neurais Auto-organizados em Interação Humano-Robô por Fala
Interação Humano-Robô. Compreensão de Linguagem Natural.
Reconhecimento Automático de Fala. Compreensão de Linguagem Falada.
A interação humano-robô (IHR) procura facilitar a execução de tarefas
robóticas. Dentre os meios de interação, encontra-se o emprego de fala para
um sistema IHR. Neste contexto, há grande interesse da comunidade
científica em realizar tarefas robóticas mais simples empregando o
reconhecimento automático de fala (ASR), e tarefas mais complexas
adicionando a compreensão de linguagem natural (NLU) a um modelo ASR.
Diante disso, os robôs enfrentam problemas para se adaptar em seus espaços
de atuação devido a fatores como ruídos internos ou externos a um robô,
múltiplos locutores em um mesmo ambiente e falhas na compreensão da
linguagem natural. Nesta tese, propõe-se um sistema auto-organizado de
interação humano-robô por fala (SAoIHR), capaz de integrar os modelos de
reconhecimento auto-organizado de fala (SAoIHR-ASR) e compreensão
auto-organizada de fala (SAoIHR-NLU) para operações em sistemas robóticos.
No módulo SAoIHR-ASR ocorre o reconhecimento de palavras isoladas ou fala
contínua em ambientes perturbados e com muitas variações na fala dos
locutores. Já o módulo SAoIHR-NLU realiza a compreensão de palavras,
lidando essencialmente com o contexto semântico, permitindo o aumento de
vocabulário básico (formado por palavras-chave). Para inserir aprendizagem
aos dois módulos, foi proposto um mapa auto-organizável, LARFSOM-LD, que
realiza aprendizagem incremental, rápida, não-supervisionada e com baixo
custo computacional. Por fim, foram realizados experimentos de validação
para os módulos SAoIHR-ASR e SAoIHR-NLU separadamente e para o SaoIHR
completo. Os experimentos do módulo SAoIHR-ASR utilizou as bases Google
commands, LibriSpeech, VoxCeleb, Aurora 4 e Chime 2 e no módulo SAoIHR-NLU
utilizou as bases GPSR e HURIC. Os experimentos alcançaram resultados
satisfatórios quando aplicados ao contexto robótico com palavras isoladas e
sentenças em ambiente com ruído, para ampliação de vocabulário e
categorizações de ações robóticas no contexto de linguagem natural. Tudo
isto com menor esforço computacional e menor tempo de processamento que
seus concorrentes.