HOMELv092 報酬が一切得られない間も;「環境の変化」自体を報酬と感じて探索を行う仕組みはどれか。 2026年1月25日 スパースな報酬環境での学習を助ける仕組み。 LLMアプリケーションにおいて;出力された回答が「事実」にどれだけ基づいているかをスコアリングすることを何というか。 ニューラルネットワークが「どんな複雑な関数でも近似できる」という数学的な定理を何というか。