我有一个书籍清单,其中每本书都属于一个类别。
- 驾驶飞机 - 航空
- 画一幅画 - 艺术
- 1001 食谱 - 烹饪
我有足够大的样本数据集。我需要使用一些算法对我的新书进行分类。我知道它永远不会 100% 准确,但一个好的猜测对我有好处。
我应该用什么来实现做这样的事情?我应该使用 Classifier4J 和它的Vector Classifier吗?
还有其他我应该看的工具,比如 Weka 吗?如果有人可以向我指出一些文章/示例以帮助我入门,那就太好了。
谢谢
我有一个书籍清单,其中每本书都属于一个类别。
我有足够大的样本数据集。我需要使用一些算法对我的新书进行分类。我知道它永远不会 100% 准确,但一个好的猜测对我有好处。
我应该用什么来实现做这样的事情?我应该使用 Classifier4J 和它的Vector Classifier吗?
还有其他我应该看的工具,比如 Weka 吗?如果有人可以向我指出一些文章/示例以帮助我入门,那就太好了。
谢谢
https://www.coursera.org/course/ml上有一门课程叫做机器学习。如果您将问题视为分类,则应该训练N
One-vs-All 分类器,其中N
是您的类数(=类别)。为了训练分类器使用自然语言处理类https://www.coursera.org/course/nlp中描述的算法,通常它与现有类http://nlp.stanford.edu/IR-book/相似html/htmledition/text-classification-and-naive-bayes-1.html。所有这些都可以通过https://cwiki.apache.org/confluence/display/MAHOUT/Bayesian在 Apache Mahout 中完成。
Lingpipe 似乎是一个很好的解决方案,并且似乎运作良好。Lingpipe 中包含的演示是一个很好的起点:
http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html