【シナリオ】MLパイプラインのジョブが「リソース不足(Out of Memory)」で失敗することがある。クラスター構成を変更せずに、ジョブの設定だけで信頼性を向上させる方法はどれか。

OOMが一時的なスパイクによるものであれば、Retries(再試行)ポリシーを設定することで、一時的な失敗を乗り越えてジョブを成功させることができる(根本解決にはクラスタサイズ検討も必要だが、設定だけで信頼性を上げる第一歩はRetry)。