3

我是一名数据挖掘新手,需要一些高维数据集的帮助(子集如下所示)。它实际上有 30 个维度和数千行。

任务是查看它们是如何聚类的,以及是否可以从这些数据中计算出任何相似性指标。我看过 SOM 和余弦相似度方法,但不确定如何解决这个问题。

ps 我完全不熟悉 R 或类似的统计包,希望在基于 C#/.NET 的库中提供一些指针。

"ROW"   "CPG"   "FSD"   "FR"    "CV"    "BI22"  "MI99"  "ME"    "HC"    "L1"    "L2"    "TL"    
1   298 840 3.80    5.16    169.17  69  25.0    0.82    125 453 792 
2   863 676 4.09    4.28    97.22   63  18.5    0.85    172 448 571 
3   915 942 7.04    5.33    33.01   72  35.1    0.86    134 450 574 
4

1 回答 1

4

我认为您正在寻找的东西被称为多维缩放图(MDS),它非常简单,但是您需要一个可以做一些线性代数/优化的库。

第一步是计算距离矩阵,这是所有数据点之间的成对欧几里得距离矩阵。

第二步是找到 N 个向量或特征(对于 2d 图通常为 2 个),它们形成与第 1 步计算的距离矩阵最近的距离矩阵。这相当于从平方距离矩阵中获取具有 N 个最大特征值的特征向量。您也许可以找到一些可以用您选择的语言执行此操作的线性代数库。我一直cmdscale()为此使用 R 函数:http: //stat.ethz.ch/R-manual/R-patched/library/stats/html/cmdscale.html

于 2013-05-22T19:59:41.647 回答