Bacharelado em Ciência da Computação (Sede)

URI permanente desta comunidadehttps://arandu.ufrpe.br/handle/123456789/6


Siglas das Coleções:

APP - Artigo Publicado em Periódico
TAE - Trabalho Apresentado em Evento
TCC - Trabalho de Conclusão de Curso

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 1 de 1
  • Imagem de Miniatura
    Item
    Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander
    (2021-07-19) Albuquerque, Renilson da Silva; Sampaio, Pablo Azevedo; http://lattes.cnpq.br/8865836949700771; http://lattes.cnpq.br/3364503614448061
    A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.