HOMELv077 ニューラルネットワークの「各層の重み」を、特定の幾何学的な「群(Group)」に対して不変・等変にする設計(例:回転しても結果が同じ)を何というか。 2026年1月25日 データの持つ対称性を利用し、少ない学習データで高い汎化性能を得る手法。 強化学習において;エージェントが「目先の報酬」に飛びつかず、「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。 LLMの学習において;「回答の良さ」を直接最適化するのではなく、人間の好みの「順位(Preference)」から報酬を推定するプロセスの名称はどれか。