ニューラルネットワークのパラメータを削減する際；「重み行列の階数（ランク）」を意識して圧縮する手法を何というか。

2026年1月25日

LoRAなどの微調整技術の理論的背景でもある行列分解技術。

強化学習において；エージェントが「目先の報酬」に飛びつかず；「最終的な勝利」のために今の損を受け入れる度合いを調整する値はどれか。

LLMの学習において；人間の好みを反映させるために；2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。