HOMELv097 強化学習のエージェントが「環境の状態」を遷移確率としてモデル化し;それを用いてシミュレーションを行う手法はどれか。 2026年1月25日 実環境での試行回数を劇的に減らせる可能性がある。 LLMアプリケーションにおいて;出力された回答が「元々のドキュメント」にどれだけ基づいているかを評価する指標を何というか。 LLMのコンテキスト長を「無限」に近づける際;アテンションの一部を「圧縮された記憶(サマリー)」として保持する手法を何というか。