HOMELv029 報酬が一切得られない環境で;エージェントが「環境の変化(新奇性)」自体を報酬と感じて探索を行う仕組みはどれか。 2026年1月25日 スパース(稀な)報酬環境での学習を助ける。 AIの判断プロセスを「数式」ではなく;「もし〜なら〜」という人間が理解できるルール(決定木など)で近似して説明する手法はどれか。 LLMに非常に長い指示を与えた際;「文章の最初と最後」の情報は覚えているが;真ん中を忘れてしまう現象を何というか。