python - nlp 多标签分类 tf vs tfidf

Question

我正在尝试解决 NLP 多标签分类问题。我有大量的文件，应该分为 29 类。

我解决问题的方法是，在清理文本、删除停用词、标记化等之后，执行以下操作：

为了创建特征矩阵，我查看了每个文档的词条的频率分布，然后创建了这些词条的表格（其中重复的词条被删除），然后我计算了相应文本中每个词的词条频率（tf）。所以，最终我在每个文档中得到了大约 1000 个术语和它们受人尊敬的频率。

然后我将selectKbest它们缩小到 490 左右。在缩放它们之后，我使用 OneVsRestClassifier( SVC) 进行分类。

我得到了一个F1 score周围，0.58但它根本没有改善，我需要得到0.62。

我是否正确处理问题？

我需要使用tfidf vectorizer而不是tf，以及如何使用？

我对 NLP 很陌生，我完全不确定下一步该做什么以及如何提高分数。

在这个主题上的任何帮助都是无价的。

谢谢

score 0 · Accepted Answer

Tf方法可以比必要的更重视常见词，而不是使用Tfidf重视数据集中特定文档中稀有和独特的词的方法。

同样在选择 Kbest 之前，宁愿在整个特征集上进行训练，然后使用特征重要性来获得最佳特征。

您也可以尝试使用Tree ClassifiersorXGB来更好地建模，但SVC也是非常好的分类器。

尝试使用Naive Bayes. 作为最低标准，f1 score并尝试在grid search.

1 回答 1