HOMELv091 LLMの学習において;人間の好みを反映させるために;2つの回答のうちどちらが良いかを選択するペアデータを用いる手法はどれか。 2026年1月25日 報酬モデルを介さずに直接方策を最適化する。 ニューラルネットワークのパラメータを削減する際;「重み行列の階数(ランク)」を意識して圧縮する手法を何というか。 画像から物体の3次元構造を復元する際;「点群」ではなく「三角形の集合」として表現する形式を何というか。