強化学習において；エージェントが「最適な行動」を直接学習するのではなく、「自分の行動が良いか悪いか」を評価する「Critic」と協力して学習する手法はどれか。

2026年1月25日

方策勾配法の一種で；学習の安定性と効率を両立させる。

LLMアプリケーションにおいて；あらかじめ特定の回答（FAQなど）を用意しておき；ユーザーの質問の「意味的な近さ」をベクトルで判定して回答を出す手法を何というか。

LLMに長いコンテキスト（文脈）を入力する際；メモリ使用量を抑えるために、注目すべきトークンを動的に選択する「疎な注目機構」の名称はどれか。