HOMELv045 RLHF(Reinforcement Learning from Human Feedback)において、報酬モデル(Reward Model)は何を学習するか。 2026年3月13日 同じプロンプトに対する複数の回答ペアについて、人間がどちらが良いかを判定したデータを用い、その選好をスコア化するように学習する。 強化学習における「World Models」のアプローチの特徴はどれか。 LLMのファインチューニング手法「LoRA」において、学習対象となる行列のランク(階数)はどう設定されるか。