HOMELv071 強化学習において;エージェントが「直接的な報酬(エサ)」だけでなく;「将来的に有利な状態(安全な場所など)」を学習するために、状態そのものに価値をつける関数はどれか。 2026年1月25日 各状態の「居心地の良さ」を数値化し;長期的視野での行動を可能にする。 LLMアプリケーションにおいて;出力された回答が「特定の倫理ガイドライン」に違反していないかを、リアルタイムで別のLLMがスコアリングする仕組みを何というか。 LLMに「自分の考えを一度下書きさせ、その下書きに対して自分でツッコミを入れさせてから最終回答を出させる」という高度なプロンプト手法を何というか。