HOMELv076 強化学習において;エージェントが「目先の報酬」に飛びつかず、「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。 2026年1月25日 1に近いほど将来の報酬を重視し、0に近いほど近視眼的になる。 LLMの運用コストを削減するために;「似たような意味の質問」をグループ化し、一度の推論でまとめて回答する効率化技術を何というか。 ニューラルネットワークの「各層の重み」を、特定の幾何学的な「群(Group)」に対して不変・等変にする設計(例:回転しても結果が同じ)を何というか。