LLMの学習において；人間の指示に対する回答の「質」をランク付けし；それを報酬として強化学習させる手法はどれか。

2026年1月25日

ChatGPTなどの対話能力を飛躍的に高めた技術。

強化学習において；エージェントが「どの状態（State）でどの行動（Action）を取るべきか」を決定する確率分布を何と呼ぶか。

Attentionの計算を；行列の積として効率よくGPU上で実行するためのアルゴリズムを何と呼ぶか。