期待される収益だけでなく;そのリスク(分布)も考慮して学習を行う強化学習の分野はどれか。

平均値だけでなく報酬のばらつきをモデル化する。