HOMELv028 LLMの学習において;人間の指示に対する回答の「質」をランク付けし;それを報酬として強化学習させる手法はどれか。 2026年1月25日 ChatGPTなどの対話能力を飛躍的に高めた技術。 強化学習において;エージェントが「どの状態(State)でどの行動(Action)を取るべきか」を決定する確率分布を何と呼ぶか。 Attentionの計算を;行列の積として効率よくGPU上で実行するためのアルゴリズムを何と呼ぶか。