HOMELv020 強化学習における「報酬シェイピング(Reward Shaping)」の目的はどれか。 2026年3月13日 ゴールに到達した時だけの疎な報酬(Sparse Reward)では学習が困難な場合に、中間目標など補助的な報酬を設計して学習を助ける。 「拡散モデル(Diffusion Model)」において、画像を生成する工程は何と呼ばれるか。 「グラフ畳み込みネットワーク(GCN)」において、隣接ノードの情報を集約する操作は何と呼ばれるか。