cluster-analysis - 文档聚类基础

Question

所以，我一直在思考这些概念一段时间，我的理解是非常基础的。信息检索似乎是一个在野外很少涉及的话题......

我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么？解析每个文档中的单词并创建一个巨大的“词袋”类型模型？然后我是否继续为每个文档创建字数向量？如何使用 K-means 聚类之类的方法比较这些文档？

score 1 · Accepted Answer

尝试Tf-idf作为初学者。如果您阅读 Python，请查看scikit-learn
中的“使用 MiniBatchKmeans 聚类文本文档” ： “一个展示如何使用 scikit-learn 使用词袋方法按主题对文档进行聚类的示例”。然后在源代码中有非常好的类。

feature_extraction/text.py

cluster-analysis - 文档聚类基础

1 回答 1

Related

Reference