4

又是一个简单的问题:使用 Ngrams(unigram/bigrams 等)作为简单的二元特征,还是在 ML 模型(如支持向量机)中使用它们的 Tfidf 分数来执行情绪分析或文本分类/分类等 NLP 任务更好?

4

1 回答 1

3

正如史蒂夫在评论中提到的,最好的答案(和 ML 风格的方式)是尝试!

话虽如此,我将从二进制特征开始。您的 ML 模型(如 SVM)的目标是确定这些特征的“权重”,因此如果它有效,则不必尝试提前设置此权重(使用 TFIDF 或其他)。

于 2013-01-27T14:42:22.600 回答