強化学習のエージェントが;「実環境での1回の試行」から得られる情報を最大化するために;「失敗しやすいギリギリの境界線」を重点的に学習する手法を何というか。

データ収集の効率を高め;学習時間を短縮するための高度なアプローチ。