我正在尝试对 Twitter 流进行集群。我想将每条推文放到一个讨论相同主题的集群中。我尝试使用具有 tf/idf 和余弦相似度的在线聚类算法对流进行聚类,但我发现结果非常糟糕。
使用 tf/idf 的主要缺点是它会将关键字相似的文档聚集在一起,因此只能识别几乎相同的文档。例如考虑以下句子:
1- 网站 Stackoverflow 是一个不错的地方。2- Stackoverflow 是一个网站。
前面的两个句子可能会通过一个合理的阈值聚集在一起,因为它们共享很多关键字。但现在考虑以下两句话:
1- 网站 Stackoverflow 是一个不错的地方。2- 我定期访问 Stackoverflow。
现在通过使用 tf/idf,聚类算法将惨遭失败,因为即使他们都谈论同一个主题,它们也只共享一个关键字。
我的问题:是否有更好的技术来聚类文档?