強化学習において；エージェントが「過去のデータ」から学ぶだけでなく、「シミュレータ内の想像（夢）」で学習を進めるアーキテクチャはどれか。

2026年1月25日

世界モデルを学習し；その中で思考実験を行うことで実環境での試行を減らす。

LLMを実務で使う際；特定のキーワード（競合他社名など）が出力されないように「後処理」でフィルタリングする仕組みを何というか。

LLMの性能を維持したまま、推論時の計算負荷が高い「Softmax」計算を避けるために提案されている手法はどれか。