问题:我们有一堆文档(杂志文章)需要放入“类别”中。一些类别反映了文章的主题(文章是关于什么的),而另一些类别反映了文章的“性质”(如果杂志印刷在纸上,它可能会出现在哪里)。
我们目前正在通过将文章发送到海外并让人们查看并标记它们来手动解决问题。
我们希望使流程更加自动化。我查看了各种库,但它们似乎并不是为了解决这个问题而设计的。
Carrot² 对搜索结果进行聚类,但尚不清楚它是否可以与现有(固定)类别一起使用,或者是否可以直接从每个输入中推断类别。
NLTK 是一种通用的解决方案,它可以做很多事情,但在速度或准确性方面并不享有盛誉。可能是我最好的选择吗?
理想情况下,我想找到一个解决方案,它给出一个类别列表和一组分类文档的训练集,能够为新文档建议一个类别,并对其建议的准确性充满信心。
如果这不存在现成的,我可以尝试根据 NLTK 的 NaiveBayesClassifier 编写一些东西,但其他选项是什么?