HOMELv025 強化学習の「Q学習」において;学習が進むにつれて行動の価値(Q値)を更新する式を何と呼ぶか。 2026年1月25日 現在の報酬と将来の期待値を結びつける強化学習の基本式。 AIの学習データから;特定の個人の情報を削除したり;特定できないように加工したりする技術の総称はどれか。 LLMに特定の知識を「外部ファイル(PDFなど)」として読み込ませ;それに基づいて回答させる手法はどれか。