Banca de DEFESA: SÉRGIO FERNANDOVITCH CHEVTCHENKO

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE: SÉRGIO FERNANDOVITCH CHEVTCHENKO
DATA : 15/08/2023
HORA: 07:30
LOCAL: Virtual
TÍTULO:

Reinforcement Learning with Spiking Neural Networks


PALAVRAS-CHAVES:

Aprendizagem por Reforço, STDP, Redes Neurais de Impulsos, FEAST, ODESA.


PÁGINAS: 111
RESUMO:

Nos últimos anos, sistemas de inteligência artificial têm progredido de forma impressionante, mas ainda estão aquém de cérebros biológicos simples em termos de capacidades de controle e consumo de energia. As redes neurais de impulsos (SNNs) buscam emular a eficiência energética, velocidade de aprendizado e processamento temporal de cérebros biológicos. No entanto, no contexto de aprendizado por reforço (RL), as SNNs ainda ficam aquém das redes neurais tradicionais. O objetivo principal deste trabalho é aproximar em termos de desempenho os modelos SNN dos algoritmos de aprendizagem profunda por reforço (DRL) em tarefas específicas. Para isso, propomos novas arquiteturas que foram comparadas, tanto em termos de velocidade de aprendizado quanto de precisão final, com algoritmos DRL e abordagens RL tabulares clássicas.

Esta tese consiste em três etapas. A etapa inicial apresenta um modelo simples de uma rede de impulsos que aborda as limitações de escalabilidade de modelos relacionados em termos do espaço de estados. O modelo é avaliado em dois problemas clássicos de RL: grid-world e acrobot. Os resultados sugerem que o modelo proposto é comparável ao algoritmo tabular e a DRL, mantendo uma vantagem em termos de complexidade sobre o algoritmo DRL. Na segunda etapa, exploramos mais o modelo proposto, combinando-o com uma rede binária para extração de características. Uma rede neural convolucional (CNN) binária é pré-treinada em um conjunto de imagens RGB naturalistas e um conjunto separado de imagens é usado como observações em uma ambiente modificado de grid-world. Melhorias na arquitetura e na dinâmica são apresentadas para tratar esse problema mais complexo, com observações de imagens. Como antes, o modelo é comparado experimentalmente com algoritmos DRL do estado da arte. Além disso, experimentos complementares são fornecidos com objetivo de apresentar uma visão mais detalhada da conectividade e plasticidade entre diferentes camadas da rede. A terceira etapa desta tese apresenta uma nova arquitetura neuromórfica para resolver problemas de RL com observações de valores reais. O modelo proposto incorpora camadas de redução de dimensionalidade, com a adição de modulação por TD-error e eligibility traces, baseando-se em trabalhos anteriores. Um estudo adicional é focado em confirmar o impacto significativo desses componentes no desempenho do modelo proposto. O modelo supera consistentemente a abordagem tabular e descobre com sucesso políticas de controle estáveis nos ambientes mountain car, cart-pole e acrobot. Embora o modelo proposto não supere o PPO em termos de latência, ele oferece uma alternativa em termos de requisitos computacionais e de hardware: o modelo não requer um buffer de memória externo nem computação de gradiente de erro global. Além disso, as atualizações sinápticas ocorrem online, por meio de regras de aprendizado local e um sinal de erro global. A tese conclui apresentando limitações da pesquisa e sugestões de trabalhos futuros.


MEMBROS DA BANCA:
Externo à Instituição - SAEED AFSHAR - OUTRA
Externo à Instituição - ALEXANDRE MARCIREAU - OUTRA
Externa à Instituição - ANNA HELENA REALI COSTA - USP
Externo à Instituição - DENIS DERATANI MAUÁ - USP
Presidente - 1675582 - CLEBER ZANCHETTIN
Notícia cadastrada em: 13/07/2023 09:31
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2024 - UFRN - sigaa03.ufpe.br.sigaa03