HOMELv005 強化学習における「Q学習」が学習する対象は何か。 2026年3月13日 Q学習は、ある状態で、ある行動をとったときの期待割引累積報酬である行動価値関数(Q値)を推定する。 BERTの学習で用いられる事前学習タスクの一つはどれか。 強化学習の「活用(Exploitation)」と「探索(Exploration)」のトレードオフにおける「探索」の意味はどれか。