PySparkの `df.rdd.map(…)` を使用してPythonコードを実行することのパフォーマンス上の欠点はどれか。

2026年3月8日

RDD APIに落ちるとSpark SQLの最適化エンジンから外れるため、可能な限りDataFrame/Dataset APIまたはPandas UDFを使用すべきである。