Databricksで `torch.distributed.run` (TorchElastic) と同等の機能を提供し、耐障害性(Fault Tolerance)を持つ分散学習ランチャーはどれか。

`TorchDistributor` は、単に分散実行するだけでなく、ノード障害時の再試行などの耐障害性を考慮した設計(Sparkのタスク再試行メカニズムとの連携)を含んでいる(ただし完全なElastic性は構成による)。