強化学習（Reinforcement Learning）において、エージェントが行動を選択する指針となる、環境から得られるフィードバック値を何と呼ぶか。

2026年1月24日

エージェントが行動した結果として環境から得られる評価値（プラスまたはマイナス）

時系列データや音声データの処理に適しており、過去の情報を内部状態として保持できるニューラルネットワークはどれか。

2つのニューラルネットワーク（生成器と識別器）を競わせるように学習させ、実在しない高精細な画像を生成したりする技術はどれか。