HOMELv052 報酬関数を人間が手書きで設計する代わりに;人間の「デモンストレーション(お手本)」から報酬関数を推測して学習する手法はどれか。 2026年1月25日 「何を目的としているか」をエージェントが自ら見つけ出す手法。 LLMアプリケーションにおいて;出力されたコードが「実行可能か」「バグがないか」を隔離された環境で自動テストするコンポーネントを何というか。 LLMの「内部知識」を修正するため;特定の事実(例:大統領の名前)に関連するニューロンの重みだけをピンポイントで書き換える技術を何というか。