HOMELv010 人間にとって好ましい回答をするように;人間のフィードバックを用いてLLMを最適化する手法はどれか。 2026年1月25日 Reinforcement Learning from Human Feedbackの略。 非常に大きなモデル(教師モデル)の知識を;小さなモデル(生徒モデル)に継承させる手法はどれか。 拡散モデル(Diffusion Model)において;ノイズから元の画像を復元する過程を何というか。