HOMELv066 AIの機械学習手法「強化学習」において、エージェント(AI)が、ある環境(Environment)の中で、特定の「状態(State)」で「行動(Action)」を選択した結果、環境から得られる即時的な評価(「良い」または「悪い」)を示す値を何と呼ぶか。 2026年1月23日 行動の結果として環境から得られる評価値。 ダイナミックケイパビリティの説明として最も適切なものはどれか。 品質コストにおいて、外部失敗コストの例として最も適切なものはどれか。