HOMELv065 強化学習のエージェントが;「実環境での1回の試行」から得られる情報を最大化するために;「失敗しやすいギリギリの境界線」を重点的に学習する手法を何というか。 2026年1月25日 データ収集の効率を高め;学習時間を短縮するための高度なアプローチ。 LLMのAPIコストを削減するために;「似たような質問」が来た際に過去の回答を返す仕組みにおいて;ベクトルの「コサイン類似度」を用いて判定することを何というか。 LLMのデコーディングにおいて;もっともらしい単語(確率の高い単語)だけでなく;複数の候補を枝分かれさせて探索し;全体の確率が最も高い文を選ぶ手法はどれか。