HOMELv035 強化学習手法「PPO (Proximal Policy Optimization)」の特徴はどれか。 2026年3月13日 TRPO(信頼領域方策最適化)の複雑な制約を、クリッピングという単純な処理で近似し、実装容易かつ高性能にした手法。 Masked Autoencoder (MAE) の学習手法の特徴はどれか。 「マルチモーダル学習」とはどのような学習か。