LLMの学習において；人間の好みを反映させるために；2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。

2026年1月25日

報酬モデルを介さずに直接方策を最適化する。

ニューラルネットワークのパラメータを削減する際；「重み行列の階数（ランク）」を意識して圧縮する手法を何というか。

画像から物体の3次元構造を復元する際；「点群」ではなく「三角形の集合」として表現する形式を何というか。