人間にとって好ましい回答をするように；人間のフィードバックを用いてLLMを最適化する手法はどれか。

2026年1月25日

Reinforcement Learning from Human Feedbackの略。

非常に大きなモデル（教師モデル）の知識を；小さなモデル（生徒モデル）に継承させる手法はどれか。

拡散モデル（Diffusion Model）において；ノイズから元の画像を復元する過程を何というか。