強化学習において；エージェントが「環境からの報酬」が全くない状態で；「世界を自由に歩き回り、どのような行動をとればどのような状態になるか」の地図だけを先に作る段階を何というか。

2026年1月25日

後の学習を高速化するために；まず環境の物理法則や構造を把握するプロセス。

LLMの運用において；特定の「不適切な画像や文章」を学習データから遡って削除し、モデルからその知識を消去する最新の技術分野を何というか。

LLMの性能を維持したまま、推論時の「行列演算の回数」を劇的に減らすために；特定の要素（重みや活性化値）が0に近い場所を計算から除外する技術はどれか。