「RLHF (Reinforcement Learning from Human Feedback)」のプロセスの順序として正しいものはどれか。

2026年3月13日

まず人間が書いた回答でモデルを微調整(SFT)し、次に人間の評価データで報酬モデルを作り、最後にその報酬モデルを使って強化学習(PPO)でLLMを最適化する。

「SimSiam」などの自己教師あり学習における「Collapsing（崩壊）」とはどのような現象か。

行列Aの擬似逆行列（Moore-Penrose）A^+の性質として正しいものはどれか。