HOMELv050 強化学習において;報酬が得られるまでが非常に長いタスクを解くために;大きな課題を小さなサブ課題に分割して学習する手法はどれか。 2026年1月25日 各階層が異なる時間スケールで行動を計画し;複雑な目的を達成する。 LLMアプリケーションにおいて;出力された結果が不適切な場合に;自動で「再生成」や「修正指示」を送る制御ロジックを何というか。 LLMの学習データに含まれる「著作権侵害の疑いがあるテキスト」を特定・除去するために用いられる重複検知技術を何というか。