我正在寻找代码或产品或服务来对文本(句子和/或段落)进行语义分析,以按一般主题对文本进行分类,例如
- 金融
- 娱乐
- 技术
- 商业
- 艺术
- ETC...
如果你有一堆已经分类的例子,你可以用它们来训练分类器。这是一个非常简单的文档分类问题,任何机器学习工具套件都将包含用于此的算法和教程。例如,查看 weka:http ://www.cs.waikato.ac.nz/ml/weka/
或rapidminer:http: //rapid-i.com/content/blogcategory/38/69/
如果您的需求有限,而您只想要一个简单的 API,那么这个朴素贝叶斯库就不会出错:https ://ci-bayes.dev.java.net/
祝你好运!
如果您想评估商业服务 API,请查看 VIKI 引擎 API: http: //www.softwareevolution.it/en/products/viki-core-api.html
这是一个易于使用的具有特定语义特征的 Json 服务 API。
这对你有帮助吗?
http://en.wikipedia.org/wiki/Document_classification
它不是成品或服务,也不是代码,但它描述了可用于语义分析的各种算法。进一步搜索,我相信它还没有真正走出实验室。人们主要在试验 KNN 算法,产生了很酷的东西,但并不是你真正需要的:
http://www.ebi.ac.uk/webservices/whatizit/info.jsf
但是,如果有一些软件可以满足您的要求,它将在此列表中:
http://www.kdnuggets.com/software/text.html
比如 LPU 程序,如果你给它足够的教学文件,它似乎可以学习。
如果您喜欢 Python/解释型语言,请查看 nltk.org 上出色的 NLTK 框架。它具有出色的分页方法和最近出版的 O'Reilly 书籍。
如果您喜欢 Java 和/或需要更成熟但更难掌握的框架,请尝试使用GATE。