Conceitos Chave
* Agente: realiza ações em um ambiente
* Ambiente: mundo no qual o agente opera
* Ações: conjunto de ações possíveis que o agente pode realizar
* Observações: feedback do ambiente, representando o estado do mundo
* Estado: situação concreta em que o agente se encontra
* Recompensa: feedback do ambiente, medindo o sucesso ou falha de uma ação do agente
Recompensas Descontadas e Função Q
* Recompensas descontadas: recompensas futuras são multiplicadas por um fator de desconto para torná-las menos valiosas que as recompensas imediatas
* Função Q: recebe como entrada o estado atual e a ação possível, e retorna a recompensa total esperada no futuro
Função de Política e Abordagens
* Função de política (π): receives como entrada o estado, e retorna a ação ótima a ser tomada nesse estado
* Algoritmos de aprendizado de valor: se concentram em aprender a função Q
* Algoritmos de aprendizado de política: aprendem diretamente a função de política
Exemplo do Jogo Atari Breakout
* Aprendendo a função de política ótima para maximizar a recompensa
* Dois pares de estado-ação são apresentados, e o público é convidado a escolher qual delas retornará uma recompensa maior
Treinamento de uma Rede Q (DQN)
* Passos para treinar uma DQN:
1. Suponha que o agente realiza as melhores ações em cada etapa, maximizando o valor Q.
2. Use a função Q ótima como alvo para treinar o agente.
3. Calcule o valor Q esperado tomando as melhores ações, aplicando o fator de desconto e somando as recompensas.
4. Use a rede para prever os valores Q para cada ação.
5. Calcule o erro quadrático médio entre o alvo e os valores Q previstos.
Algoritmos Q-Learning e Policy Gradient
* Q-learning: aprende uma função Q que recebe como entrada o estado e a ação, e retorna a recompensa esperada
* Algoritmos de gradiente de política: aprendem diretamente a função de política que recebe como entrada o estado e retorna uma distribuição de probabilidade sobre as ações
* Vantagens dos algoritmos de gradiente de política: aprendizado de políticas estocásticas, capacidade de aprender novas técnicas, flexibilidade em jogos não somatórios
Em resumo, o aprendizado por reforço é uma área emocionante que permite aos modelos aprenderem comportamentos complexos em ambientes dinâmicos. Com a capacidade de aprender políticas ótimas e distribuições de probabilidade sobre as ações, os algoritmos de gradiente de política estão revolucionando o campo do aprendizado por reforço.