我正在尝试解决 NLP 多标签分类问题。我有大量的文件,应该分为 29 类。
我解决问题的方法是,在清理文本、删除停用词、标记化等之后,执行以下操作:
为了创建特征矩阵,我查看了每个文档的词条的频率分布,然后创建了这些词条的表格(其中重复的词条被删除),然后我计算了相应文本中每个词的词条频率(tf
)。所以,最终我在每个文档中得到了大约 1000 个术语和它们受人尊敬的频率。
然后我将selectKbest
它们缩小到 490 左右。在缩放它们之后,我使用 OneVsRestClassifier( SVC
) 进行分类。
我得到了一个F1 score
周围,0.58
但它根本没有改善,我需要得到0.62
。
我是否正确处理问题?
我需要使用tfidf vectorizer
而不是tf
,以及如何使用?
我对 NLP 很陌生,我完全不确定下一步该做什么以及如何提高分数。
在这个主题上的任何帮助都是无价的。
谢谢