LLMの学習データに含まれる「著作権侵害の疑いがあるテキスト」や「有害情報」を自動でフィルタリングする処理を何というか。

高品質なデータセット構築のために不可欠な工程。