HOMELv018 強化学習における「探索(Exploration)」と「活用(Exploitation)」のトレードオフを制御する代表的な手法はどれか。 2026年3月11日 $\epsilon$-greedy法は、確率$\epsilon$でランダムに行動し(探索)、$1-\epsilon$で現時点の最適行動をとる(活用)手法である。 AscendCLにおいて、モデルの推論実行時に動的なバッチサイズ(Dynamic Batch Size)をサポートするために必要な設定はどれか。 MindSporeの `Callback` クラスを継承してカスタムコールバックを作成する際、エポック終了時に呼び出されるメソッドはどれか。