強化学習において;「将来の報酬の期待値」だけでなく;その報酬の「ばらつき(分布)」自体を学習する手法を何というか。

期待値だけでなくリスクを考慮した高度な判断が可能になる。