HOMELv077 LLMの学習において;「回答の良さ」を直接最適化するのではなく、人間の好みの「順位(Preference)」から報酬を推定するプロセスの名称はどれか。 2026年1月25日 RLHFにおける重要なステップで、人間の「感覚」を数値化してモデルに伝える。 ニューラルネットワークの「各層の重み」を、特定の幾何学的な「群(Group)」に対して不変・等変にする設計(例:回転しても結果が同じ)を何というか。 AIによるビデオ解析において;「物体が画面の外に消えても、再び現れたときに同一だと認識する」ための長期的な一貫性を保つ技術を何というか。