4

我正在尝试解决 NLP 多标签分类问题。我有大量的文件,应该分为 29 类。

我解决问题的方法是,在清理文本、删除停用词、标记化等之后,执行以下操作:

为了创建特征矩阵,我查看了每个文档的词条的频率分布,然后创建了这些词条的表格(其中重复的词条被删除),然后我计算了相应文本中每个词的词条频率(tf)。所以,最终我在每个文档中得到了大约 1000 个术语和它们受人尊敬的频率。

然后我将selectKbest它们缩小到 490 左右。在缩放它们之后,我使用 OneVsRestClassifier( SVC) 进行分类。

我得到了一个F1 score周围,0.58但它根本没有改善,我需要得到0.62

我是否正确处理问题?

我需要使用tfidf vectorizer而不是tf,以及如何使用?

我对 NLP 很陌生,我完全不确定下一步该做什么以及如何提高分数。

在这个主题上的任何帮助都是无价的。

谢谢

4

1 回答 1

0

Tf方法可以比必要的更重视常见词,而不是使用Tfidf重视数据集中特定文档中稀有和独特的词的方法。

同样在选择 Kbest 之前,宁愿在整个特征集上进行训练,然后使用特征重要性来获得最佳特征。

您也可以尝试使用Tree ClassifiersorXGB来更好地建模,但SVC也是非常好的分类器。

尝试使用Naive Bayes. 作为最低标准,f1 score并尝试在grid search.

于 2019-02-13T02:37:34.720 回答