報酬を最大化するだけでなく；解の「多様性」と「質の高さ」を同時に追求し；広範な行動レパートリーを獲得するアルゴリズムの総称はどれか。

2026年1月25日

MAP-Elitesなどが代表例で；一つの最適解ではなく多様な成功パターンを探索する。

LLMのAPI利用において；同じ指示（システムプロンプト）が繰り返される場合に；最初の処理結果を再利用してコストと遅延を削減する技術はどれか。

LLMの学習において；人間の好みのデータから直接「報酬関数を介さずに」モデルを最適化する手法はどれか。