エージェントが未知の行動を試すことと、既知の収益の高い行動をとることのバランスを何と呼ぶか。

2026年3月12日

高い報酬を得るには、既存知識の利用と新しい行動の探索の両立が必要である。

CNNにおいて、画像の端の情報を失わないように周囲にダミー値を埋める処理はどれか。

単一のネットワークでバウンディングボックスの座標とクラス確率を同時に出力するモデルはどれか。