HOMELv068 強化学習において;エージェントが「将来の報酬の期待値」を計算する際;「今すぐもらえる100円」と「1年後の100円」を区別するために使われる係数はどれか。 2026年1月25日 通常0から1の値をとり;将来の報酬の現在価値を算出するのに使われる。 LLMの運用において;特定の「禁止されたキーワード」が含まれる回答を生成しそうになった際;別の「当たり障りのない単語」に強制的に書き換える機能を何というか。 LLMの学習において;ウェブサイトから収集したデータを、その「ドメイン(政府、教育、娯楽など)」ごとに重み付けしてサンプリングし;学習の質を調整する手法を何というか。