HOMELv015 強化学習においてエージェントが行動を決定するための指針を何と呼ぶか。 2026年3月12日 方策は特定の状態においてどのような行動を選択するかを定義したルールである。 Sparkにおいてデータを不揮発性のストレージ(ディスク)に保存する操作はどれか。 モデルの学習中に出力値が非常に大きくなり計算が不安定になる現象を何と呼ぶか。