【シナリオ】MLパイプラインのジョブが「リソース不足（Out of Memory）」で失敗することがある。クラスター構成を変更せずに、ジョブの設定だけで信頼性を向上させる方法はどれか。

2026年3月8日

OOMが一時的なスパイクによるものであれば、Retries（再試行）ポリシーを設定することで、一時的な失敗を乗り越えてジョブを成功させることができる（根本解決にはクラスタサイズ検討も必要だが、設定だけで信頼性を上げる第一歩はRetry）。