HOMELv059 強化学習において;エージェントが「直接的な報酬」が得られない間も;「どれだけゴールに近づいたか」という補助的な報酬を与える手法を何というか。 2026年1月25日 報酬が稀な(スパースな)課題の学習を加速させるテクニック。 LLMの運用において;特定の「有害な出力」が生成された際に;それを自動的に遮断して定型の安全な回答に差し替える処理を何というか。 LLMの出力品質を維持したまま、推論時のメモリ消費量を大幅に削減する「KVキャッシュの量子化」において;重要なトークンだけ高い精度を残す手法を何というか。