RLHF（Reinforcement Learning from Human Feedback）において、報酬モデル（Reward Model）は何を学習するか。

2026年3月13日

同じプロンプトに対する複数の回答ペアについて、人間がどちらが良いかを判定したデータを用い、その選好をスコア化するように学習する。

強化学習における「World Models」のアプローチの特徴はどれか。

LLMのファインチューニング手法「LoRA」において、学習対象となる行列のランク（階数）はどう設定されるか。