2

我正在尝试使用 NLTK 来训练用于多类文本分类的朴素贝叶斯分类器。但我无法访问原始文本。我得到的是一个 SVM Light 格式的文件(每行一个实例具有特征:值对)。我只需要导入这个文件并使用这个数据集训练和测试朴素贝叶斯分类器。我想知道是否有某种方法可以将此文件导入 NLTK 并直接使用它来训练分类器。

4

1 回答 1

2

根据nltk自己的文档,这是这样实现的:

文档摘录:

scikit-learn ( http://scikit-learn.org ) 是 Python 的机器学习库。它支持许多分类算法,包括 SVM、朴素贝叶斯、逻辑回归 (MaxEnt) 和决策树。

这个包实现了一个围绕 scikit-learn 分类器的包装器。要使用这个包装器,请构造一个 scikit-learn 估计器对象,然后使用它来构造一个 SklearnClassifier。例如,用默认设置包装线性 SVM:

例子:

>>> from sklearn.svm import LinearSVC
>>> from nltk.classify.scikitlearn import SklearnClassifier
>>> classif = SklearnClassifier(LinearSVC())

见:http ://www.nltk.org/api/nltk.classify.html#module-nltk.classify.scikitlearn

于 2014-03-24T03:56:42.467 回答