報酬関数を人間が手書きで設計する代わりに；人間の「デモンストレーション（お手本）」から報酬関数を推測して学習する手法はどれか。

2026年1月25日

「何を目的としているか」をエージェントが自ら見つけ出す手法。

LLMアプリケーションにおいて；出力されたコードが「実行可能か」「バグがないか」を隔離された環境で自動テストするコンポーネントを何というか。

LLMの「内部知識」を修正するため；特定の事実（例：大統領の名前）に関連するニューロンの重みだけをピンポイントで書き換える技術を何というか。