我有一个如下所示的文本文件:
leave messages
enterrement de vie de garçon
sacré coeur
paris skyline
singer montmartre girl audience joined man singing playing guitar front tourists
paris skyline
paris skyline
该文本文件的每一行都对应一个文档,我想使用具有余弦相似度的 tf-idf 或凝聚聚类对其进行聚类。我正在使用 MATLAB。我已经删除了停用词和标点符号。
我的问题是这些行(文档)有 300k。所以缩放是一个问题。另一个问题是我无法理解如何将每一行文本转换为值向量?谁能解释一下,举个例子?
谢谢。
我尝试使用 k-means 聚类(nltk library python)并且内存不足。同样对于 k-means,我不知道我应该得到多少个集群(所以我只是在疯狂地猜测)。
另一件事:我有可用于此文本的基本事实(例如,我在另一个文件中有此数据的 0,1,2 个标签)。而且我也有测试数据(另一个文本文件)。我对如何使用这些信息来帮助对测试数据进行聚类感到困惑。
请帮忙。谢谢。