这是一个家庭作业问题。我有一个巨大的文件,里面全是文字。我的挑战是将这些词分类为充分代表这些词的不同组/集群。我处理它的策略是使用 K-Means 算法,如您所知,它采用以下步骤。
- 为整个组生成 k 个随机均值
- 通过将每个单词与最接近的平均值相关联来创建 K 个集群
- 计算每个集群的质心,成为新的均值
- 重复步骤 2 和步骤 3,直到达到某个基准/收敛。
理论上,我有点明白,但不完全明白。我认为在每一步,我都有与之相对应的问题,这些是:
我如何决定 k 随机均值,从技术上讲,我可以说 5,但这不一定是一个好的随机数。那么这个 k 纯粹是一个随机数还是它实际上是由启发式驱动的,例如数据集的大小、所涉及的单词数等
你如何将每个单词与最接近的意思联系起来?从理论上讲,我可以得出结论,每个单词都通过其与最近均值的距离相关联,因此如果有 3 个均值,则属于特定聚类的任何单词都取决于它与哪个均值的距离最短。但是,这实际上是如何计算的?在两个单词“group”、“textword”之间并假设一个平均单词“pencil”,我如何创建一个相似度矩阵。
你如何计算质心?
当您重复第 2 步和第 3 步时,您是否假设每个先前的集群都是一个新的数据集?
很多问题,我显然不清楚。如果有任何我可以阅读的资源,那就太好了。维基百科还不够:(