強化学習において、人間のフィードバックを用いてモデルを最適化する手法はどれか。

2026年1月25日

Reinforcement Learning from Human Feedback（人間からのフィードバックによる強化学習）。

LLMにおいて、文脈として保持できる最大の長さを示す用語はどれか。

プロンプトにおいて、AIに論理的な思考ステップを踏ませて回答させる手法はどれか。