所以,我一直在思考这些概念一段时间,我的理解是非常基础的。信息检索似乎是一个在野外很少涉及的话题......
我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K-means 聚类之类的方法比较这些文档?
所以,我一直在思考这些概念一段时间,我的理解是非常基础的。信息检索似乎是一个在野外很少涉及的话题......
我的问题源于对文档进行聚类的过程。假设我从一组只包含有趣单词的文档开始。这里的第一步是什么?解析每个文档中的单词并创建一个巨大的“词袋”类型模型?然后我是否继续为每个文档创建字数向量?如何使用 K-means 聚类之类的方法比较这些文档?
尝试Tf-idf作为初学者。如果您阅读 Python,请查看scikit-learn
中的“使用 MiniBatchKmeans 聚类文本文档” :
“一个展示如何使用 scikit-learn 使用词袋方法按主题对文档进行聚类的示例”。
然后在源代码中有非常好的类。feature_extraction/text.py