LLMの学習において；「回答の良さ」を直接最適化するのではなく、人間の好みの「順位（Preference）」から報酬を推定するプロセスの名称はどれか。

2026年1月25日

RLHFにおける重要なステップで、人間の「感覚」を数値化してモデルに伝える。

ニューラルネットワークの「各層の重み」を、特定の幾何学的な「群（Group）」に対して不変・等変にする設計（例：回転しても結果が同じ）を何というか。

AIによるビデオ解析において；「物体が画面の外に消えても、再び現れたときに同一だと認識する」ための長期的な一貫性を保つ技術を何というか。