LLMの学習データに含まれる「著作権侵害の疑いがあるテキスト」を特定・除去するために用いられる重複検知技術を何というか。

データの質を高めると同時に;法的・倫理的リスクを低減する。