3

如何根据内容自动查找文本类别?

4

5 回答 5

2

我鼓励您查看与Natural Language Toolkit捆绑的文本分类库。即使您不熟悉 Python,我想您也会发现该 API 相当直观。NLTK Book中有很多很好的例子,邮件列表中的人也很有帮助。

于 2009-07-01T12:42:19.610 回答
2
  1. 阅读数据挖掘:实用机器学习工具和技术- Ian H. Witten,Eibe Frank
  2. 使用WekaOrange
于 2008-12-31T18:17:23.407 回答
1

进行文本分类的最简单方法是使用词袋表示。每个文档中的单词/ n-gram 单词可以用作特征。有了这个,您可以将每个文档表示为度量空间中的向量。随后,您可以将聚类应用于内容相似的文档组。例如,您可以使用带有这些向量的 k-means 聚类来将词汇相似的文档聚类在一起。

基于 Python 的文本挖掘工作台,NTLK非常适合快速尝试此类任务(通常,python 非常适合处理文本)。您可能会发现它很有用。

于 2014-04-26T18:52:40.550 回答
0

有一篇关于此的好论文:http ://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html

于 2008-09-15T18:38:01.917 回答
0

对内容(无论是文本还是多媒体)进行分类的最佳方法是使用分类法。大多数著名的 CMS 都内置了对分类法的支持。在各种 CMS 中,Drupal是对分类法最好的支持之一。

于 2008-09-15T18:53:07.887 回答