強化学習における「探索（Exploration）」と「活用（Exploitation）」のトレードオフを制御する代表的な手法はどれか。

2026年3月11日

$\epsilon$-greedy法は、確率$\epsilon$でランダムに行動し（探索）、$1-\epsilon$で現時点の最適行動をとる（活用）手法である。

AscendCLにおいて、モデルの推論実行時に動的なバッチサイズ（Dynamic Batch Size）をサポートするために必要な設定はどれか。

MindSporeの `Callback` クラスを継承してカスタムコールバックを作成する際、エポック終了時に呼び出されるメソッドはどれか。