我最近开始在 python 中使用 SciKit 模块进行文档聚类。但是,我很难理解文档聚类的基础知识。
我知道的 ?
- 文档聚类通常使用 TF/IDF 完成。它本质上将文档中的单词转换为向量空间模型,然后输入到算法中。
- 有许多算法,如 k-means、神经网络、层次聚类来实现这一点。
我的资料:
- 我正在尝试使用linkedin 数据,每个文档都是linkedin 个人资料摘要,我想看看类似的工作文档是否聚集在一起。
当前挑战:
- 我的数据有大量的摘要描述,当我应用 TF/IDF 时,这些描述最终变成了 10000 字。是否有任何适当的方法来处理这些高维数据。
- K - 均值和其他算法需要我指定编号。集群(质心),在我的情况下,我不知道预先集群的数量。我相信这是一种完全无监督的学习。是否有可以确定否的算法。集群本身?
- 我以前从未使用过文档聚类,如果您知道解决此问题的教程、教科书或文章,请随时提出建议。
我浏览了 SciKit 网页上的代码,它包含太多我不明白的技术词汇,如果你们有任何解释或评论的代码,请分享。提前致谢。