データセットに含まれる重複行を特定し、最新の1行だけを残す処理はどれか。

2026年3月7日

重複データの排除（Deduplication）はデータクレンジングの重要な工程である。

クラウドストレージにおいて、頻繁にアクセスしないデータを安価に保存する層はどれか。

正規分布において、平均値から±2標準偏差の範囲に含まれるデータの割合は約何%か。