強化学習において；エージェントが「未来の報酬」をどの程度重視するかを決定する「割引率」の値を1に近づけるとどうなるか。

2026年1月25日

1に近いほど長期的視野で行動し；0に近いほど近視眼的な行動をとる。

LLMのAPIの応答時間を予測し；レスポンスが遅い場合に自動でプロンプトを簡略化して再試行する負荷分散手法を何というか。

LLMの学習において；特定の単語の出現頻度に基づいてトークンを分割・結合する「BPE（Byte Pair Encoding）」が属するアルゴリズムの総称はどれか。