HOMELv081 強化学習において;エージェントが「環境からの報酬」が全く得られない間も、「世界がどう変化するか」という予測誤差を「驚き」として報酬にする手法はどれか。 2026年1月25日 スパースな報酬環境でも、エージェントが自律的に学習を継続できるようにする。 LLMのAPIの応答時間を予測し;レスポンスが極端に遅くなりそうな複雑な質問に対して、自動で「要約してから処理する」などの前処理を行う最適化手法を何というか。 ニューラルネットワークの「重みの更新」に勾配(一次微分)だけでなく、情報の幾何学的な「メトリック」である「フィッシャー情報行列」を用いる最適化手法はどれか。