Sampaio, Pablo AzevedoAlbuquerque, Renilson da Silva2023-02-162023-02-162021-07-19ALBUQUERQUE, Renilson da Silva. Um currículo de aprendizagem por reforço para recompensas modeladas no Lunar Lander. 2021. 40 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.https://repository.ufrpe.br/handle/123456789/3991A aprendizagem por reforço é um paradigma de aprendizagem de máquina onde o agente aprende a resolver problemas interagindo com um ambiente através de ações executadas em uma lógica de tentativa e erro. A cada ação executada, o agente recebe uma recompensa do ambiente indicando o quão efetiva foi em relação a resolução do problema, de forma que o objetivo do agente consiste em maximizar a recompensa total recebida. Porém, em alguns sistemas de aprendizagem por reforço o agente precisa aprender tarefas muito complexas que atribuem recompensas não muito informativas, gerando assim o problema de atribuição de crédito que torna a aprendizagem do agente muito lenta. A modelagem de recompensas e a aprendizagem por currículo, são técnicas que podem acelerar o tempo de treinamento do agente ao separar o problema em tarefas menores a serem resolvidas sequencialmente, atribuindo recompensas menores e mais informativas por ação executada. O Lunar lander é um simulador 2D simplificado, utilizado como referencial para a aplicação de soluções de aprendizagem por reforço para o problema de otimização do controle de pouso de um módulo lunar. Porém o seu sistema de recompensas padrão atribui muito mais recompensas punitivas pelo uso dos motores, não sendo muito construtivo para o agente, o que pode levar ao problema de atribuição de crédito. Neste sentido, este trabalho propôs um currículo utilizando dois novos modelos de recompensas, onde foram realizados experimentos a fim de minimizar o tempo de aprendizado do Lunar Lander. Foi constatado neste trabalho que ambos os novos modelos e o currículo, foram mais efetivos em treinar o agente do Lunar Lander, em comparação ao modelo de recompensas padrão.40 f.poropenAccesshttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.pt_BRAprendizagem baseada em problemasSimulação (Computadores)Algoritmos computacionaisUm currículo de aprendizagem por reforço para recompensas modeladas no Lunar LanderbachelorThesisAtribuição-NãoComercial-SemDerivações 4.0 Internacional (CC BY-NC-ND 4.0)https://n2t.net/ark:/57462/001300000jq72