試行錯誤を通じて、報酬が最大になるような行動を学習する手法はどれか。

2026年3月13日

エージェントが環境との相互作用で報酬を得ることで最適な行動を学ぶのが強化学習である。

特定の入力に対して、中間層（隠れ層）を経由して出力を得るAIの構造はどれか。

データの中にある外れ値が平均値に与える影響を軽減する統計量はどれか。