強化学習において；エージェントが「未知の環境」を探索する際；報酬が全く得られない場所でも「次に何が起きるかの予測しにくさ」を指標に動く仕組みを何というか。

2026年1月25日

予測エラーが大きい場所を重点的に探索することで；効率的に情報を収集する。

LLMアプリケーションにおいて；「前のターンの会話内容」をベクトルデータベースから検索し；現在のプロンプトに追加する仕組みを何というか。

LLMの「モデル・アライメント」において；人間の好みを反映させるために；2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。