強化学習において；エージェントが「どの状態（State）でどの行動（Action）を取るべきか」を決定する確率分布を何と呼ぶか。

2026年1月25日

π(a|s)と表記される；学習の最終的な成果物。

AI開発において；「人権」「公平性」「安全」などの倫理的側面を設計段階から組み込む考え方を何というか。

LLMの学習において；人間の指示に対する回答の「質」をランク付けし；それを報酬として強化学習させる手法はどれか。