強化学習のエージェントが；「実環境での1回の試行」から得られる情報を最大化するために；「失敗しやすいギリギリの境界線」を重点的に学習する手法を何というか。

2026年1月25日

データ収集の効率を高め；学習時間を短縮するための高度なアプローチ。

LLMのAPIコストを削減するために；「似たような質問」が来た際に過去の回答を返す仕組みにおいて；ベクトルの「コサイン類似度」を用いて判定することを何というか。

LLMのデコーディングにおいて；もっともらしい単語（確率の高い単語）だけでなく；複数の候補を枝分かれさせて探索し；全体の確率が最も高い文を選ぶ手法はどれか。