HOMELv027 強化学習において;エージェントが「どの状態(State)でどの行動(Action)を取るべきか」を決定する確率分布を何と呼ぶか。 2026年1月25日 π(a|s)と表記される;学習の最終的な成果物。 AI開発において;「人権」「公平性」「安全」などの倫理的側面を設計段階から組み込む考え方を何というか。 LLMの学習において;人間の指示に対する回答の「質」をランク付けし;それを報酬として強化学習させる手法はどれか。