エージェントが行動を選択するためのルール（状態から行動への写像）を何と呼ぶか。

2026年1月25日

最適な方策（最適方策）を見つけることが強化学習の目的である。

学習済みのモデルを別の（類似した）タスクに再利用し；少量のデータで学習を効率化する手法はどれか。

データの平均値を0；標準偏差を1にするように変換する処理を何というか。