Q学習（Q-learning）において、行動を選択する際に一定の確率 ε でランダムな行動をとる戦略を何と呼ぶか。

2026年4月3日

活用（既知の最善）と探索（未知の可能性）をバランスさせる手法。

CNNにおいて、カーネルサイズを大きくする代わりに、小さなカーネルを重ねるメリットはどれか。

適合率・再現率曲線（PR曲線）が、ROC曲線よりも不均衡データの評価に適しているとされる理由は何か。