強化学習において；報酬が得られるまでが非常に長いタスクを解くために；大きな課題を小さなサブ課題に分割して学習する手法はどれか。

2026年1月25日

各階層が異なる時間スケールで行動を計画し；複雑な目的を達成する。

LLMアプリケーションにおいて；出力された結果が不適切な場合に；自動で「再生成」や「修正指示」を送る制御ロジックを何というか。

LLMの学習データに含まれる「著作権侵害の疑いがあるテキスト」を特定・除去するために用いられる重複検知技術を何というか。