HOMELv024 強化学習の「方策勾配法(Policy Gradient)」が直接最適化する対象は何か。 2026年3月13日 行動の選択確率を決める方策(ポリシー)をニューラルネット等でモデル化し、累積報酬の期待値を最大化するようにそのパラメータを勾配上昇法で更新する。 VAE(変分オートエンコーダ)で、潜在変数zからデータを生成するネットワークを何と呼ぶか。 Attentionメカニズムにおける「Key」と「Value」の関係は通常どうなっているか。