Banca de DEFESA: MATEUS GONCALVES MACHADO

Uma banca de DEFESA de MESTRADO foi cadastrada pelo programa.
DISCENTE : MATEUS GONCALVES MACHADO
DATA : 07/06/2022
HORA: 16:00
LOCAL: Virtual
TÍTULO:

DyLam: A Dynamic Reward Weighting Method for Reinforcement Learning 
Policy Gradient Algorithms


PALAVRAS-CHAVES:

Aprendizagem por Reforço; Reward shaping; Recompensas 
esparsas; Aprendizagem Profunda.


PÁGINAS: 58
RESUMO:

Aprendizagem por Reforço (AR) é um subcampo emergente de Aprendizagem de 
Máquina no qual um agente interage com um ambiente e aproveita suas 
experiências para aprender, por tentativa e erro, quais ações são as mais 
adequadas para cada estado.
A cada passo o agente recebe um sinal de recompensa positivo ou negativo, 
que é o principal feedback utilizado para o aprendizado.
A AR encontra aplicações em diversas áreas, como robótica, bolsa de valores 
e até mesmo em sistemas de refrigeração, apresentando desempenho 
sobre-humano no aprendizado de jogos de tabuleiro (Xadrez e Go) e 
videogames (jogos de Atari, Dota2 e StarCraft2).
No entanto, os métodos AR ainda lutam em ambientes com recompensas escassas.
Por exemplo, um agente pode receber poucas recompensas por gols em um jogo 
de futebol. Assim, é difícil associar recompensas (gols) com ações.
Os pesquisadores frequentemente introduzem várias recompensas 
intermediárias para ajudar no aprendizado e contornar esse problema. No 
entanto, combinar adequadamente várias recompensas para compor o sinal de 
recompensa único usado pelos métodos AR frequentemente não é uma tarefa 
fácil.
Este trabalho visa resolver este problema específico através da introdução 
do DyLam. Ele estende os métodos de gradiente de política existentes 
decompondo a função de recompensa usada no ambiente e ponderando 
dinamicamente cada componente em função do desempenho do agente na tarefa 
associada.
Provamos a convergência do método proposto e mostramos empiricamente que 
ele supera métodos concorrentes nos ambientes avaliados em termos de 
velocidade de aprendizado e, em alguns casos, desempenho final.


MEMBROS DA BANCA:
Externa à Instituição - ANNA HELENA REALI COSTA - USP
Interno - 1710187 - HANSENCLEVER DE FRANCA BASSANI
Presidente - 1511095 - TSANG ING REN
Notícia cadastrada em: 03/06/2022 16:59
SIGAA | Superintendência de Tecnologia da Informação (STI-UFPE) - (81) 2126-7777 | Copyright © 2006-2024 - UFRN - sigaa10.ufpe.br.sigaa10