強化学習における「報酬シェイピング（Reward Shaping）」の目的はどれか。

2026年3月13日

ゴールに到達した時だけの疎な報酬（Sparse Reward）では学習が困難な場合に、中間目標など補助的な報酬を設計して学習を助ける。

「拡散モデル（Diffusion Model）」において、画像を生成する工程は何と呼ばれるか。

「グラフ畳み込みネットワーク（GCN）」において、隣接ノードの情報を集約する操作は何と呼ばれるか。