HOMELv064 強化学習において;エージェントが「未知の環境」を探索する際;報酬が全く得られない場所でも「次に何が起きるかの予測しにくさ」を指標に動く仕組みを何というか。 2026年1月25日 予測エラーが大きい場所を重点的に探索することで;効率的に情報を収集する。 LLMアプリケーションにおいて;「前のターンの会話内容」をベクトルデータベースから検索し;現在のプロンプトに追加する仕組みを何というか。 LLMの「モデル・アライメント」において;人間の好みを反映させるために;2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。