HOMELv013 TransformerのAttention機構において;Query, Key, Valueの重みを複数の「ヘッド」に分ける手法はどれか。 2026年1月25日 異なる観点(部分空間)での文脈把握を可能にする。 単語レベルではなく;さらに細かい単位でテキストを処理するアルゴリズム(BPEなど)を何というか。 期待される収益だけでなく;そのリスク(分布)も考慮して学習を行う強化学習の分野はどれか。