HOMELv090 強化学習において;エージェントが「目先の報酬」に飛びつかず;「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。 2026年1月25日 1に近いほど将来を重視し;0に近いほど近視眼的になる。 LLMの運用コストを削減するために;「似たような質問」をグループ化し一回の推論でまとめて回答する技術を何というか。 ニューラルネットワークのパラメータを削減する際;「重み行列の階数(ランク)」を意識して圧縮する手法を何というか。