HOMELv069 強化学習において;エージェントが「環境から得られる報酬」をそのまま使うのではなく;「人間から見た行動の良さ」を反映した報酬に変換するプロセスを何というか。 2026年1月25日 RLHFの中核プロセスであり;人間の好みを報酬関数として数値化する。 LLMアプリケーションにおいて;「入力されたプロンプト」の中に「システム命令を無視せよ」という不正な指示が隠されていないかをチェックする別のLLMを何というか。 LLMの学習において;「数学の問題」や「コードの解説」など、論理的思考が必要な高品質データを人工的に生成して学習に用いる手法を何というか。