LLMに「逆の立場のキャラクター」として議論させ、自分の回答の矛盾点を自ら修正させるプロンプト手法を何というか。

2026年1月25日

単一の推論よりも；客観的かつ論理的な回答を得やすくなる。

強化学習において；報酬が時間的に遅れて得られる場合、現在のアクションがどれだけ未来の報酬に寄与したかを計算する仕組みを何というか。

ニューラルネットワークの「各層の出力」が学習中に大きく変動するのを抑えるために；入力を平均0、分散1に正規化する手法の総称はどれか。