HOMELv008 エージェントが行動を選択するためのルール(状態から行動への写像)を何と呼ぶか。 2026年1月25日 最適な方策(最適方策)を見つけることが強化学習の目的である。 学習済みのモデルを別の(類似した)タスクに再利用し;少量のデータで学習を効率化する手法はどれか。 データの平均値を0;標準偏差を1にするように変換する処理を何というか。