強化学習において；「環境から得られる報酬」をそのまま使うのではなく；「人間から見た行動の良さ」を反映した報酬に変換するプロセスを何というか。

2026年1月25日

RLHFの中核プロセスであり；人間の好みを報酬関数として数値化する。

LLMアプリケーションにおいて；「入力されたプロンプト」の中に「システム命令を無視せよ」という不正な指示がないかをチェックする別のLLMを何というか。

ニューラルネットワークの「情報の伝播」を幾何学的に解析し；情報の対称性を保ったまま学習させる「等変ニューラルネットワーク」の利点はどれか。