強化学習において;エージェントが「直接的な報酬(エサ)」だけでなく;「将来的に有利な状態(安全な場所など)」を学習するために、状態そのものに価値をつける関数はどれか。

各状態の「居心地の良さ」を数値化し;長期的視野での行動を可能にする。