報酬が一切得られない環境で；エージェントが「環境の変化（新奇性）」自体を報酬と感じて探索を行う仕組みはどれか。

2026年1月25日

スパース（稀な）報酬環境での学習を助ける。

AIの判断プロセスを「数式」ではなく；「もし〜なら〜」という人間が理解できるルール（決定木など）で近似して説明する手法はどれか。

LLMに非常に長い指示を与えた際；「文章の最初と最後」の情報は覚えているが；真ん中を忘れてしまう現象を何というか。