HOMELv062 強化学習において;報酬が時間的に遅れて得られる場合、現在のアクションがどれだけ未来の報酬に寄与したかを計算する仕組みを何というか。 2026年1月25日 報酬の割り当てを時間軸方向にスムーズに広げるテクニック。 LLMアプリケーションにおいて;出力された回答が「元々のドキュメント(事実)」にどれだけ基づいているかをスコアリングする手法を何というか。 LLMに「逆の立場のキャラクター」として議論させ、自分の回答の矛盾点を自ら修正させるプロンプト手法を何というか。