エージェントが環境から報酬を最大化するように学習する手法を何というか。

2026年4月27日

試行錯誤を通じて利得を最大化する行動を学習するのが強化学習である。

2つのベクトル (1, 2) と (x, -1) が垂直であるとき、x の値はいくらか。

方程式 x^3 – 1 = 0 の虚数解の一つを ω とするとき、ω^2 + ω + 1 の値はいくらか。