1

我是文本挖掘的新手,我有一个非常大的文本文件,其中每一行都代表对一个项目(一个句子)的评论。

我想找到评论中存在的组和主题。所以我的问题是我的数据的特征、组和主题是什么?每个词的出现频率可以作为特征吗?我们是否必须将每一行(评论)视为文档本身,然后我们必须对评论进行聚类?我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,集群的数量都应该是一个已知参数。

我的第二个问题是如何编辑此k-means 聚类代码以查找组和NMF 代码以使用我的 reviews.txt 文件查找主题。

4

1 回答 1

2

首先,正如评论中所建议的,您可以从一本关于文本挖掘或信息检索的好书中获取基础知识。我的建议是:Introduction to Information Retrieval

现在尝试简要回答您的问题:

//我的问题是特征是什么// - 与大多数文本挖掘问题一样,您的案例中的特征可能是每个句子中的术语(单词)。您可以估计词频并使用TF-IDF表示,这是一种非常流行的文档表示方式。

//groups// - 由于每个句子都代表一个单独的评论,您可以将每个句子视为一个小文档并使用文档聚类来识别组。

//我的数据的主题?// - 是的,有一种叫做主题建模的东西,它可以帮助您从文档集合中识别主题。但是,不确定它是否适用于您的问题。

//我们是否必须将每一行(评论)视为文档本身,然后我们必须对评论进行聚类?// - 是的。

//我还想知道是否应该事先知道组或主题的数量,因为在任何无监督算法中,集群的数量都应该是一个已知参数。// - 事实并非如此。许多聚类算法不期望没有先验知识。聚类,如层次聚类亲和传播。即使对于期望没有的算法。对于集群,有多种方法可以预测这一点。

于 2014-05-24T17:32:52.553 回答