TransformerのAttention機構において；Query, Key, Valueの重みを複数の「ヘッド」に分ける手法はどれか。

2026年1月25日

異なる観点（部分空間）での文脈把握を可能にする。

単語レベルではなく；さらに細かい単位でテキストを処理するアルゴリズム（BPEなど）を何というか。

期待される収益だけでなく；そのリスク（分布）も考慮して学習を行う強化学習の分野はどれか。