HOMELv084 OpenAIの初期の成功を支えた;方策の更新幅を制限することで学習の安定性を劇的に向上させたアルゴリズムはどれか。 2026年1月25日 PPOは信頼領域外への極端な更新を抑えることで;安定した強化学習を実現する。 2つの確率分布 $P$ と $Q$ の「近さ」を測る際;対象性がなく $P$ から見た $Q$ の情報損失量を表す指標はどれか。 ニューラルネットワークの「情報の伝播」を幾何学的に解析し;層を無限に深くした際の極限状態を記述する理論を何というか。