HOMELv066 LLMのデコーディングにおいて;もっともらしい単語(確率の高い単語)だけでなく;複数の候補を枝分かれさせて探索し;全体の確率が最も高い文を選ぶ手法はどれか。 2026年1月25日 局所的な最適解に陥るのを防ぎ;より流暢な文章を生成する。 強化学習のエージェントが;「実環境での1回の試行」から得られる情報を最大化するために;「失敗しやすいギリギリの境界線」を重点的に学習する手法を何というか。 TransformerのAttention計算において;行列の次元 $d$ の平方根でドット積を割る(スケーリングする)主な理由はどれか。