強化学習で、将来得られる報酬を現在の価値に割り引くために使う係数はどれか。

2026年3月3日

gamma（0〜1の値）。

二項分布において、試行回数n、成功確率pとしたときの期待値はいくらか。

自然言語処理で、単語を固定長のベクトルで表現する手法を何と呼ぶか。