我有大量要分类的文档(主要是 pdf 和 doc),因此我可以根据某些标签搜索它们。这些标签可以是我自己的(我将标签放在文档中)或从文本中提取。
我刚刚看到一篇与此相关的帖子(Classify data using Apache Mahout),但也许还有更简单的东西。
我有大量要分类的文档(主要是 pdf 和 doc),因此我可以根据某些标签搜索它们。这些标签可以是我自己的(我将标签放在文档中)或从文本中提取。
我刚刚看到一篇与此相关的帖子(Classify data using Apache Mahout),但也许还有更简单的东西。
Mahout 可能对您的问题有点矫枉过正——但您可以通过使用 OpenNLP 获得相当快速、简单的解决方案。
http://opennlp.sourceforge.net/api/index.html
具体来说,查看 opennlp.tools.doccat 包。从本质上讲,您必须为您想要的每个类别手动标记一小部分(ish)项目。如果它们真的不同,您可以使用小样本量。
您可以使用 DocumentCategorizerME.train() 静态函数来训练文档集合,其中每个文档都需要一个类别标签和文本块来进行训练。然后,您可以使用经过训练的模型初始化 DocumentCategorizerME,并开始对所有其余文档进行分类。
一旦你这样做了,你可以(我认为)将模型写入一个文件,这样你就不必再这样做了。
这篇关于提取关键字和分类网页的帖子是相关的,可能会有所帮助。在您的示例中,听起来您可以使用标签代替关键字提取部分(尽管您可能希望将两者结合使用)。 Weka易于使用,我绝对建议您看看。