強化学習の「方策勾配法（Policy Gradient）」が直接最適化する対象は何か。

2026年3月13日

行動の選択確率を決める方策（ポリシー）をニューラルネット等でモデル化し、累積報酬の期待値を最大化するようにそのパラメータを勾配上昇法で更新する。

VAE（変分オートエンコーダ）で、潜在変数zからデータを生成するネットワークを何と呼ぶか。

Attentionメカニズムにおける「Key」と「Value」の関係は通常どうなっているか。