報酬が一切得られない間も；「環境の変化」自体を報酬と感じて探索を行う仕組みはどれか。

2026年1月25日

スパースな報酬環境での学習を助ける仕組み。

LLMアプリケーションにおいて；出力された回答が「事実」にどれだけ基づいているかをスコアリングすることを何というか。

ニューラルネットワークが「どんな複雑な関数でも近似できる」という数学的な定理を何というか。