HOMELv008 テキストデータのベクトル化手法において、単語の出現頻度だけでなく、多くの文書に出現する単語の重要度を下げる手法はどれか。 2026年3月3日 TF-IDF(Term Frequency-Inverse Document Frequency)は希少な単語に重みをつける。 Amazon Kinesis Data FirehoseからS3にデータを配信する際、ファイルサイズを最適化するために調整すべき2つのパラメータはどれか。 SageMakerのBuilt-in XGBoostアルゴリズムにおいて、トレーニングデータの一部を検証用として確保するために必要なデータの分割指定方法はどれか。