「RLHF (Reinforcement Learning from Human Feedback)」のプロセスの順序として正しいものはどれか。

まず人間が書いた回答でモデルを微調整(SFT)し、次に人間の評価データで報酬モデルを作り、最後にその報酬モデルを使って強化学習(PPO)でLLMを最適化する。