OpenAIの初期の成功を支えた;方策の更新幅を制限することで学習の安定性を劇的に向上させたアルゴリズムはどれか。

PPOは信頼領域外への極端な更新を抑えることで;安定した強化学習を実現する。