HOMELv033 LLMに「あなたはプロの編集者です」といった役割を与えることで;回答の質やトーンを調整する手法を何というか。 2026年1月25日 モデルの振る舞いを特定のキャラクターに固定する。 報酬が「成功(1)」か「失敗(0)」しかなく;途中のプロセスが評価されない過酷な報酬環境を何と呼ぶか。 ニューラルネットワークのパラメータのうち;値がほぼゼロのものを削除して計算量を減らす手法はどれか。