LLMのデコーディングにおいて；もっともらしい単語（確率の高い単語）だけでなく；複数の候補を枝分かれさせて探索し；全体の確率が最も高い文を選ぶ手法はどれか。

2026年1月25日

局所的な最適解に陥るのを防ぎ；より流暢な文章を生成する。

強化学習のエージェントが；「実環境での1回の試行」から得られる情報を最大化するために；「失敗しやすいギリギリの境界線」を重点的に学習する手法を何というか。

TransformerのAttention計算において；行列の次元 $d$ の平方根でドット積を割る（スケーリングする）主な理由はどれか。