HOMELv003 強化学習において、人間のフィードバックを用いてモデルを最適化する手法はどれか。 2026年1月25日 Reinforcement Learning from Human Feedback(人間からのフィードバックによる強化学習)。 LLMにおいて、文脈として保持できる最大の長さを示す用語はどれか。 プロンプトにおいて、AIに論理的な思考ステップを踏ませて回答させる手法はどれか。