強化学習において；エージェントが「目先の報酬」に飛びつかず、「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。

2026年1月25日

1に近いほど将来の報酬を重視し、0に近いほど近視眼的になる。

LLMの運用コストを削減するために；「似たような意味の質問」をグループ化し、一度の推論でまとめて回答する効率化技術を何というか。

ニューラルネットワークの「各層の重み」を、特定の幾何学的な「群（Group）」に対して不変・等変にする設計（例：回転しても結果が同じ）を何というか。