Sampaio, Pablo AzevedoSilva, Kenedy Felipe dos Santos da2023-02-232023-02-232021-07-20SILVA, Kenedy Felipe dos Santos da. Teacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar Lander. 2021. 37 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Departamento de Computação, Universidade Federal Rural de Pernambuco, Recife, 2021.https://repository.ufrpe.br/handle/123456789/4006As técnicas estudadas relacionadas à aprendizagem por reforço estão se tornando cada vez mais comuns em desafios do mundo real, porém um desafio é reduzir o tempo de aprendizado. Atualmente o tempo de aprendizado e/ou quantidade de interações realizadas pelo agente de aprendizagem por reforço podem resultar em altos custos nas aplicações, pois o treinamento dos modelos podem consumir bastante tempo, exigindo muitas interações do agente com o ambiente da tarefa. Este trabalho busca melhorar o aprendizado utilizando uma nova combinação de técnicas, a técnica Teacher-Student (Aluno-Professor) com a Reward Shaping (modelagem de recompensas). A técnica Teacher-Student visa escolher dentre um conjunto de tarefas similares que treinam para uma tarefa principal, de acordo com o aprendizado do aluno. A técnica Reward Shaping, altera a recompensa para tentar acelerar o aprendizado, fornece feedbacks mais frequentes sobre os comportamentos apropriados, ou seja, reporta recompensas com mais frequência. Adaptamos algoritmos de Teacher-Student para essa combinação de técnicas, e usamos o ambiente Lunar Lander como estudo de caso, usando quatro modelos de recompensa elaborados em (ALBUQUERQUE, 2021) para este ambiente. Foram realizados experimentos executando diferentes treinamentos para comparar essa abordagem com o treinamento apenas no Lunar Lander original (sem alteração das recompensas), e com os resultados obtidos em (ALBUQUERQUE, 2021) ao adotar cada um dos modelos de recompensas individualmente. A combinação das técnicas Teacher-Student com Reward Shaping contribuíram para uma nova experiência na área de aprendizagem por reforço, conseguindo acelerar o aprendizado do agente, considerando a duração de 600 mil passos de treinamento, atingindo o desempenho alvo em 2 de 5 propostas, além de conseguir aprender melhor que a abordagem original do Lunar Lander com algoritmo PPO.37 f.poropenAccesshttps://creativecommons.org/licenses/by-sa/4.0/deed.pt_BRAprendizado do computadorAlgoritmos computacionaisMarkov, Processos deTeacher-Student aplicado a diferentes modelos de recompensa do ambiente Lunar LanderbachelorThesisAtribuição-CompartilhaIgual 4.0 Internacional (CC BY-SA 4.0)https://n2t.net/ark:/57462/001300000hxjm