HOMELv056 強化学習において;エージェントが「最適な行動」を直接学習するのではなく、「自分の行動が良いか悪いか」を評価する「Critic」と協力して学習する手法はどれか。 2026年1月25日 方策勾配法の一種で;学習の安定性と効率を両立させる。 LLMアプリケーションにおいて;あらかじめ特定の回答(FAQなど)を用意しておき;ユーザーの質問の「意味的な近さ」をベクトルで判定して回答を出す手法を何というか。 LLMに長いコンテキスト(文脈)を入力する際;メモリ使用量を抑えるために、注目すべきトークンを動的に選択する「疎な注目機構」の名称はどれか。