LLMの学習において;ウェブから収集した大量のテキストから「品質の低いデータ」や「重複」を排除し、高品質なデータセットを作る作業を何というか。

「ゴミを入れたらゴミが出る(GIGO)」を防ぐための最重要工程。