強化学習において；エージェントが「目先の報酬」に飛びつかず；「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。

2026年1月25日

1に近いほど将来を重視し；0に近いほど近視眼的になる。

LLMの運用コストを削減するために；「似たような質問」をグループ化し一回の推論でまとめて回答する技術を何というか。

ニューラルネットワークのパラメータを削減する際；「重み行列の階数（ランク）」を意識して圧縮する手法を何というか。