HOMELv008 大規模言語モデル(LLM)の学習において人間の評価を反映させる手法はどれか。 2026年3月12日 RLHF(人間のフィードバックによる強化学習)はAIの回答を人間の好みに合わせるための調整手法である。 転移学習(Transfer Learning)を行う主な利点はどれか。 ニューラルネットワークの過学習を防ぐために一部のノードをランダムに無効化する手法はどれか。