HOMELv005 強化学習の「活用(Exploitation)」と「探索(Exploration)」のトレードオフにおける「探索」の意味はどれか。 2026年3月13日 探索は、より高い報酬が得られる可能性を探るために、あえて現在の最適ではない行動を試すことを指す。 強化学習における「Q学習」が学習する対象は何か。 生成モデル「GAN(敵対的生成ネットワーク)」におけるGeneratorの目的はどれか。