報酬が「成功(1)」か「失敗(0)」しかなく;途中のプロセスが評価されない過酷な報酬環境を何と呼ぶか。

この環境での学習は非常に困難であり;工夫が必要となる。