強化学習の「Q学習」において；学習が進むにつれて行動の価値（Q値）を更新する式を何と呼ぶか。

2026年1月25日

現在の報酬と将来の期待値を結びつける強化学習の基本式。

AIの学習データから；特定の個人の情報を削除したり；特定できないように加工したりする技術の総称はどれか。

LLMに特定の知識を「外部ファイル（PDFなど）」として読み込ませ；それに基づいて回答させる手法はどれか。