HOMELv003 強化学習において、エージェントが行動を選択した結果として環境から得る値はどれか。 2026年3月12日 報酬(Reward)は行動の良し悪しをエージェントに伝えるためのフィードバックである。 バウンディングボックスの重なり具合を評価するために使用される指標はどれか。 2つのネットワークが競い合うように学習し、本物に近いデータを生成するモデルはどれか。