強化学習において；エージェントが「環境からの報酬」が全く得られない間も、「世界がどう変化するか」という予測誤差を「驚き」として報酬にする手法はどれか。

2026年1月25日

スパースな報酬環境でも、エージェントが自律的に学習を継続できるようにする。

LLMのAPIの応答時間を予測し；レスポンスが極端に遅くなりそうな複雑な質問に対して、自動で「要約してから処理する」などの前処理を行う最適化手法を何というか。

ニューラルネットワークの「重みの更新」に勾配（一次微分）だけでなく、情報の幾何学的な「メトリック」である「フィッシャー情報行列」を用いる最適化手法はどれか。