HOMELv040 「RLHF (Reinforcement Learning from Human Feedback)」のプロセスの順序として正しいものはどれか。 2026年3月13日 まず人間が書いた回答でモデルを微調整(SFT)し、次に人間の評価データで報酬モデルを作り、最後にその報酬モデルを使って強化学習(PPO)でLLMを最適化する。 「SimSiam」などの自己教師あり学習における「Collapsing(崩壊)」とはどのような現象か。 行列Aの擬似逆行列(Moore-Penrose)A^+の性質として正しいものはどれか。