0

我有一个如下所示的文本文件:

leave messages 
enterrement de vie de garçon 
sacré coeur 
paris skyline 
singer montmartre girl audience joined man singing playing guitar front tourists 
paris skyline 
paris skyline 

该文本文件的每一行都对应一个文档,我想使用具有余弦相似度的 tf-idf 或凝聚聚类对其进行聚类。我正在使用 MATLAB。我已经删除了停用词和标点符号。

我的问题是这些行(文档)有 300k。所以缩放是一个问题。另一个问题是我无法理解如何将每一行文本转换为值向量?谁能解释一下,举个例子?

谢谢。

我尝试使用 k-means 聚类(nltk library python)并且内存不足。同样对于 k-means,我不知道我应该得到多少个集群(所以我只是在疯狂地猜测)。

另一件事:我有可用于此文本的基本事实(例如,我在另一个文件中有此数据的 0,1,2 个标签)。而且我也有测试数据(另一个文本文件)。我对如何使用这些信息来帮助对测试数据进行聚类感到困惑。

请帮忙。谢谢。

4

0 回答 0