HOMELv065 LLMの「モデル・アライメント」において;人間の好みを反映させるために;2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。 2026年1月25日 報酬モデルを介さずに直接方策を最適化するため;RLHFより計算が安定する。 強化学習において;エージェントが「未知の環境」を探索する際;報酬が全く得られない場所でも「次に何が起きるかの予測しにくさ」を指標に動く仕組みを何というか。 ニューラルネットワークの「情報の伝播」をスムーズにするために;各層の重みの分布を学習可能なパラメータで調整する手法を何というか。