HOMELv061 強化学習において;エージェントが「最適な行動」を決定するための確率分布を、パラメトリックな関数として直接学習する手法はどれか。 2026年1月25日 連続的なアクション空間(ロボットの関節角度など)を扱うのに適している。 LLMの運用において;特定の「機密データ」が漏洩しないように、出力から個人名や社名、電話番号を自動で隠蔽する処理を何というか。 LLMの知識を「特定のタスク」に最適化する際;モデルの重みは一切変えずに、入力の「埋め込みベクトル」だけを学習・付加する手法を何というか。