強化学習のDDPG（Deep Deterministic Policy Gradient）が対象とする行動空間はどれか。

2026年3月13日

DQN等の手法は離散的な行動しか扱えないが、DDPGはActor-Critic法を用いて、ロボット制御などの連続値の行動出力に対応する。

継続学習（Continual Learning）において、新しいタスクを学習すると古いタスクの性能が著しく低下する現象は何か。

異なるフレームワーク間でAIモデルを交換するための標準フォーマットはどれか。