HOMELv034 強化学習(Reinforcement Learning)において、エージェントが行動を選択する指針となる、環境から得られるフィードバック値を何と呼ぶか。 2026年1月24日 エージェントが行動した結果として環境から得られる評価値(プラスまたはマイナス) 時系列データや音声データの処理に適しており、過去の情報を内部状態として保持できるニューラルネットワークはどれか。 2つのニューラルネットワーク(生成器と識別器)を競わせるように学習させ、実在しない高精細な画像を生成したりする技術はどれか。