HOMELv061 LLMの「指示への従順さ」を高めるために;人間の手で作られた高品質な指示と回答のペアで追加学習するプロセスを何というか。 2026年1月25日 事前学習後のモデルに「対話の形」を教え込む重要なステップ。 強化学習において;エージェントが「環境の状態」を遷移確率としてモデル化し;そのモデルを用いてシミュレーションを行う手法はどれか。 ニューラルネットワークの学習中に;「死んだニューロン(常に0を出力する)」が発生するのを防ぐために、活性化関数を工夫する手法はどれか。