1

谁能告诉我k-means聚类如何在文本挖掘中起作用……我使用余弦相似度作为距离度量。

nim              310910022       320910044          310910043           310910021
access               0               2                  3                   5
abdi                 1               0                  0                   0 
actual               5               0                  0                   1
arrow                 0               1                 1                   2

此数据在列表视图上

我怎样才能在 VB.net 中做到这一点?获取该术语的任何集群和趋势主题?

预先感谢

4

1 回答 1

0

首先,我将问题分为两部分:

  1. 计算 k-means 聚类分配
  2. 从 GUI 获取数据(您提到数据在列表视图中)

我假设 2 是直截了当的,你只需要 1 的帮助。

我将首先重写代码,以按照您的指定读取数据的 TSV 文本文件。这将使事情更容易调试。

然后询问您是要自己实现kmeans算法还是使用库。如果你想实现它,这里有一个伪代码链接 http://www.scribd.com/doc/89373376/K-Means-Pseudocode 你也可以搜索其他kmeans伪代码。

如果您想使用库仅针对 kmeans 算法“运行”您的数据,这里是 python/scipy 中的一个示例。 http://glowingpython.blogspot.com/2012/04/k-means-clustering-with-scipy.html

无论您使用哪种方法,都要意识到 kmeans 是非确定性的,每次运行它时您可能会得到不同的答案。我建议对已知的验证集进行计算,以查看数据是否大致符合您的想法。

于 2013-05-06T01:26:15.263 回答