強化学習において；エージェントが「環境からの報酬」が全くない状態で；「世界がどう変化するか」の地図だけを先に作る段階を何というか。

2026年1月25日

後の学習を高速化するために；環境の物理法則や構造をまず把握する。

LLMの運用において；特定の「不適切な画像」が生成されないように；生成プロセスの中間段階で特徴量を監視し中断する機能を何というか。

LLMの学習において；「数学の問題」や「コードの解説」など；論理的思考が必要な高品質データをAI自身に生成させて学習させる手法はどれか。