強化学習のQ学習において、Q値を更新する式のターゲットに含まれる項はどれか。

2026年3月3日

次状態での最大報酬期待値を用いる。

逆行列を持つ行列のことを何というか。

「スルー・ザ・グラス（Through-the-glass）」等の手法がある、モデル圧縮の分野はどれか。