HOMELv072 強化学習において;エージェントが「環境からの報酬」が全くない状態で;「世界を自由に歩き回り、どのような行動をとればどのような状態になるか」の地図だけを先に作る段階を何というか。 2026年1月25日 後の学習を高速化するために;まず環境の物理法則や構造を把握するプロセス。 LLMの運用において;特定の「不適切な画像や文章」を学習データから遡って削除し、モデルからその知識を消去する最新の技術分野を何というか。 LLMの性能を維持したまま、推論時の「行列演算の回数」を劇的に減らすために;特定の要素(重みや活性化値)が0に近い場所を計算から除外する技術はどれか。