我正在尝试做一个从网络上挖掘一些文本的应用程序,但我不确定执行文本挖掘的最佳方法是什么。
我想对这个问题了解什么是最常用的技术/算法来执行文本挖掘和在文档中进行一些信息检索(不用于索引)。
我正在尝试做一个从网络上挖掘一些文本的应用程序,但我不确定执行文本挖掘的最佳方法是什么。
我想对这个问题了解什么是最常用的技术/算法来执行文本挖掘和在文档中进行一些信息检索(不用于索引)。
文本挖掘是一个相当宽泛的术语,它大致是指将机器学习应用于文本。常用技术包括k均值聚类、朴素贝叶斯和线性 SVM 分类、tf-idf 矢量化、SVD (应用于文本时称为LSA )、潜在 Dirichlet 分配。因此,执行“一些文本挖掘”可能意味着几乎任何事情,就像进行“一些信息检索”一样。
有关该领域的良好介绍,请参阅 Bing Liu 的书Web Data Mining。
最基本的文本挖掘技术是正则表达式。