強化学習において、AIが取るべき「良い行動」に対して与えられる数値的な指標を何と呼ぶか。

2026年1月25日

報酬を最大化するように学習を進めるのが強化学習の基本原理。

生成AIプロジェクトにおいて、ビジネス上の目標とAIの出力を合致させる役割を担うのはどれか。

LLMの再学習を行わず、プロンプトに外部情報を注入して回答させる手法はどれか。