3

我正在尝试实现用于情感分析的朴素贝叶斯分类器。我计划使用 TF-IDF 加权度量。我现在只是有点卡住了。NB 一般使用词(特征)频率来寻找最大似然。那么如何在朴素贝叶斯中引入 TF-IDF 加权度量呢?

4

1 回答 1

2

您在统计模型中使用 TF-IDF 权重作为特征/预测变量。我建议使用 gensim [1] 或 scikit-learn [2] 来计算权重,然后将其传递给朴素贝叶斯拟合程序。

scikit-learn 'working with text' 教程 [3] 可能也很有趣。

[1] http://scikit-learn.org/dev/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html

[2] http://radimrehurek.com/gensim/models/tfidfmodel.html

[3] http://scikit-learn.github.io/scikit-learn-tutorial/working_with_text_data.html

于 2013-04-18T08:22:24.080 回答