強化学習において;報酬が得られるまでが非常に長いタスクを解くために;大きな課題を小さなサブ課題に分割して学習する手法はどれか。

各階層が異なる時間スケールで行動を計画し;複雑な目的を達成する。