エージェントが環境の中で報酬を最大化するように行動を学習する手法は何か。

2026年3月3日

試行錯誤を通じて最適な戦略を学ぶ。

正解ラベルを与えず、データ自体の構造や特徴を見つけ出す学習手法は何か。

教師あり学習において、連続する数値を予測するタスクを何と呼ぶか。