HOMELv025 強化学習のQ学習において、Q値を更新する式のターゲットに含まれる項はどれか。 2026年3月3日 次状態での最大報酬期待値を用いる。 逆行列を持つ行列のことを何というか。 「スルー・ザ・グラス(Through-the-glass)」等の手法がある、モデル圧縮の分野はどれか。