我正在尝试用 Python 编写一个新闻聚合器。我获取新闻文章,制作术语文档矩阵,然后在scipy和fascluster模块的帮助下使用余弦相似度对它们进行聚类:
distance = spatial.distance.pdist(wordmatrix,'cosine')
linkage = fastcluster.linkage(distance,method="complete")
当我有大约 30 个新闻来源时,它的效果很好。但是,当我放置大约 70 个不同的来源时,它并没有很好地聚集在一起。我尝试标准化术语文档矩阵,也尝试了 tf-idf 矩阵,但我仍然得到相同的结果。知道如何解决这个问题吗?