我正在尝试解决一个简单的分类问题。
问题:
我有一组文本,我必须根据内容对它们进行分类。
使用 Mahout 的解决方案:
我知道我必须将输入转换为序列文件才能生成模型。是的,我能够做到这一点。现在,如何对测试数据进行分类?20News 示例仅测试正确性。但是,我想做实际的分类。
我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类。?
我正在尝试解决一个简单的分类问题。
问题:
我有一组文本,我必须根据内容对它们进行分类。
使用 Mahout 的解决方案:
我知道我必须将输入转换为序列文件才能生成模型。是的,我能够做到这一点。现在,如何对测试数据进行分类?20News 示例仅测试正确性。但是,我想做实际的分类。
我不确定是否需要编写代码或使用一些现有的类来对测试集进行分类。?
我有个类似的问题。
跑步
bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs
将根据模型对文本文件进行分类。
这可能会让你更进一步,但我猜想,像我一样,你想要对一大堆文档进行分类,并且想要以有用的格式输出。
可能需要编写一些 java 程序才能做到这一点。有人有一个例子,看起来它会在https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java上做我想做的事
我讨厌插入我自己的工作,但我们在 Mahout in Action 中放置了有关分类的整个部分。理论、代码示例、案例研究实践,甚至整个服务器场实施。