強化学習手法「PPO (Proximal Policy Optimization)」の特徴はどれか。

2026年3月13日

TRPO（信頼領域方策最適化）の複雑な制約を、クリッピングという単純な処理で近似し、実装容易かつ高性能にした手法。

Masked Autoencoder (MAE) の学習手法の特徴はどれか。

「マルチモーダル学習」とはどのような学習か。