Otimização de Política Proximal

Parte de uma série sobre
Aprendizado de máquina
e
mineração de dados
Problemas
Aprendizagem supervisionada
(classificação • regressão)

Redução de dimensionalidade
Predição estruturada
  • RANSAC
  • k-NN
  • LOF
  • Isolation Forest
Aprendizagem por reforço
  • Aprendizagem Q
  • SARSA
  • Diferença temporal (TD)
Teoria
Locais de aprendizado de máquina
Artigos relacionados
  • Glossário de inteligência artificial
  • Lista de conjuntos de dados para pesquisa em aprendizagem de máquina
  • Visão geral da aprendizagem de máquina
  • Função softmax
  • v
  • d
  • e

Otimização de Política Proximal (em inglês Proximal Policy Optimization (PPO)) é uma família de algoritmos de aprendizado por reforço sem modelo desenvolvido na OpenAI em 2017. Os algoritmos PPO são métodos de gradiente de política, o que significa que eles pesquisam o espaço de políticas em vez de atribuir valores a pares de estado-ação.

Os algoritmos PPO têm alguns dos benefícios dos algoritmos de otimização de política de região confiável (TRPO), mas são mais simples de implementar, mais gerais e têm uma complexidade de amostra melhor.[1] Isso é feito usando uma função objetivo diferente.[2]

Veja também

  • Aprendizagem por reforço
  • Aprendizagem por diferença temporal
  • Teoria do jogo

Referências

  1. Schulman, John; Wolski, Filip. «Proximal Policy Optimization Algorithms». arXiv:1707.06347Acessível livremente 
  2. «Proximal Policy Optimization». OpenAI. 2017 

Ligações externas

  • Anúncio da Otimização de Política Proximal da OpenAI
  • repositório GitHub