-2

我正在尝试做一个从网络上挖掘一些文本的应用程序,但我不确定执行文本挖掘的最佳方法是什么。

我想对这个问题了解什么是最常用的技术/算法来执行文本挖掘和在文档中进行一些信息检索(不用于索引)。

4

3 回答 3

7

文本挖掘是一个相当宽泛的术语,它大致是指将机器学习应用于文本。常用技术包括k均值聚类、朴素贝叶斯和线性 SVM 分类、tf-idf 矢量化、SVD (应用于文本时称为LSA )、潜在 Dirichlet 分配。因此,执行“一些文本挖掘”可能意味着几乎任何事情,就像进行“一些信息检索”一样。

有关该领域的良好介绍,请参阅 Bing Liu 的书Web Data Mining

于 2011-11-05T12:02:22.867 回答
0

我认为聚类分析文本挖掘最常用的技术。

于 2011-11-05T01:54:54.000 回答
-4

最基本的文本挖掘技术是正则表达式

于 2011-11-06T09:57:45.310 回答