強化学習において；「将来の報酬の期待値」だけでなく；その報酬の「ばらつき（分布）」自体を学習する手法を何というか。

2026年1月25日

期待値だけでなくリスクを考慮した高度な判断が可能になる。

LLMアプリケーションにおいて；「事実に基づかない回答（ハルシネーション）」を最小化するために；外部の信頼できるデータベースと照合する処理を何というか。

LLMの推論において；「Aという単語が出たら次はBが出やすい」という中間計算結果（キャッシュ）を使い回す技術を何というか。