Exploring Multi-Agent Deep Reinforcement Learning In IEEE Very
Small Size Soccer
Aprendizado por Reforço. Robótica. Sistemas Multiagentes
O futebol de robôs é considerado um excelente exemplo de ambiente
multiagente dinâmico e cooperativo, pois pode demonstrar uma variedade de
complexidades. A aprendizagem por reforço é uma técnica promissora para
otimizar a tomada de decisões nestes sistemas complexos, pois obteve
recentemente grande sucesso devido aos avanços nas redes neurais profundas,
como mostrado em problemas como direção autônoma, jogos e robótica; em
sistemas multiagentes, a pesquisa de aprendizagem por reforço está
enfrentando desafios como cooperação, observabilidade parcial, execução
descentralizada, comunicação e dinâmicas complexas. Em tarefas difíceis,
modelar o problema completo no ambiente de aprendizagem pode ser muito
desafiador para os algoritmos resolverem; podemos simplificar o ambiente
para permitir a aprendizagem, contudo, as políticas aprendidas em ambientes
simplificados geralmente não são ideais no ambiente completo. Este estudo
explora se a aprendizagem profunda por reforço multiagente supera as
contrapartes de agente único em um ambiente de futebol de robôs da
categoria IEEE Very Small Size Soccer, uma tarefa que apresenta um problema
desafiador de cooperação e competição com duas equipes frente a frente,
cada uma com três robôs; Investigamos a eficácia de diversos paradigmas de
aprendizagem em alcançar o objetivo central de realizar gols, avaliando a
cooperação, comparando os resultados de paradigmas multiagentes e de agente
único. Os resultados indicam que as simplificações introduzidas no ambiente
de aprendizagem para facilitar a aprendizagem podem diminuir a importância
da cooperação e introduzir vieses, conduzindo o processo de aprendizagem
para políticas conflitantes e desalinhadas com o desafio original.