強化学習において；エージェントが「将来の報酬の期待値」を計算する際；「今すぐもらえる100円」と「1年後の100円」を区別するために使われる係数はどれか。

2026年1月25日

通常0から1の値をとり；将来の報酬の現在価値を算出するのに使われる。

LLMの運用において；特定の「禁止されたキーワード」が含まれる回答を生成しそうになった際；別の「当たり障りのない単語」に強制的に書き換える機能を何というか。

LLMの学習において；ウェブサイトから収集したデータを、その「ドメイン（政府、教育、娯楽など）」ごとに重み付けしてサンプリングし；学習の質を調整する手法を何というか。