HOMELv009 強化学習において、エージェントが行動を選択した結果として環境から得られる値を何というか。 2026年4月16日 エージェントは累積される報酬を最大化するように学習を進める。 WAF(Web Application Firewall)が防御対象とする攻撃として、最も適切なものはどれか。 関数が自分自身を呼び出す「再帰」において、処理を終了させるために必要な条件を何というか。