LLMの「モデル・アライメント」において；人間の好みを反映させるために；2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。

2026年1月25日

報酬モデルを介さずに直接方策を最適化するため；RLHFより計算が安定する。

強化学習において；エージェントが「未知の環境」を探索する際；報酬が全く得られない場所でも「次に何が起きるかの予測しにくさ」を指標に動く仕組みを何というか。

ニューラルネットワークの「情報の伝播」をスムーズにするために；各層の重みの分布を学習可能なパラメータで調整する手法を何というか。