1

问题:我们有一堆文档(杂志文章)需要放入“类别”中。一些类别反映了文章的主题(文章是关于什么的),而另一些类别反映了文章的“性质”(如果杂志印刷在纸上,它可能会出现在哪里)。

我们目前正在通过将文章发送到海外并让人们查看并标记它们来手动解决问题。

我们希望使流程更加自动化。我查看了各种库,但它们似乎并不是为了解决这个问题而设计的。

Carrot² 对搜索结果进行聚类,但尚不清楚它是否可以与现有(固定)类别一起使用,或者是否可以直接从每个输入中推断类别。

NLTK 是一种通用的解决方案,它可以做很多事情,但在速度或准确性方面并不享有盛誉。可能是我最好的选择吗?

理想情况下,我想找到一个解决方案,它给出一个类别列表和一组分类文档的训练集,能够为新文档建议一个类别,并对其建议的准确性充满信心。

如果这不存在现成的,我可以尝试根据 NLTK 的 NaiveBayesClassifier 编写一些东西,但其他选项是什么?

4

1 回答 1

3

对于这个有监督的分类任务,我会使用Stanford Classifier。它嵌入了从特征提取(比词袋复杂得多)到一流的机器学习(最大熵模型)的所有内容。如果您有足够的训练数据(即手动标记的文章),它会很好地工作。

唯一的事情是,它只会为每篇文章分配一个类。但是由于您的两个“维度”(文章的主题和文章的种类)似乎是相当正交的,因此没有什么能阻止您将这两个维度视为两个单独的分类问题。

于 2013-05-17T15:04:29.190 回答