強化学習において、エージェントが望ましい行動をとった時に環境から与えられる評価値を何と呼ぶか。

2026年3月13日

エージェントは累積報酬が最大化されるような行動方針（方策）を学習することで、最適な行動を獲得していく。

日本の著作権法改正（第30条の4）により、AIの機械学習（情報解析）目的であれば、著作物をどのように利用できるか。

IoTプロジェクトの目標達成度合いを定量的に評価するための重要業績評価指標はどれか。