強化学習における「Q学習」が学習する対象は何か。

2026年3月13日

Q学習は、ある状態で、ある行動をとったときの期待割引累積報酬である行動価値関数（Q値）を推定する。

BERTの学習で用いられる事前学習タスクの一つはどれか。

強化学習の「活用（Exploitation）」と「探索（Exploration）」のトレードオフにおける「探索」の意味はどれか。