HOMELv007 強化学習において、AIが取るべき「良い行動」に対して与えられる数値的な指標を何と呼ぶか。 2026年1月25日 報酬を最大化するように学習を進めるのが強化学習の基本原理。 生成AIプロジェクトにおいて、ビジネス上の目標とAIの出力を合致させる役割を担うのはどれか。 LLMの再学習を行わず、プロンプトに外部情報を注入して回答させる手法はどれか。