1

所以,我一直在思考这些概念一段时间,我的理解是非常基础的。信息检索似乎是一个在野外很少涉及的话题......

我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K-means 聚类之类的方法比较这些文档?

4

1 回答 1

1

尝试Tf-idf作为初学者。如果您阅读 Python,请查看scikit-learn
中的“使用 MiniBatchKmeans 聚类文本文档” : “一个展示如何使用 scikit-learn 使用词袋方法按主题对文档进行聚类的示例”。 然后在源代码中有非常好的类。

feature_extraction/text.py

于 2011-11-28T13:06:22.450 回答