4

我希望这是发布的正确位置-如果不是,我愿意更改为 SO。

无论如何,我使用 MDS 来帮助我找到数据集的二维表示。从本质上讲,这些是多年蛋白质数据中氨基酸残基的 pKa 值——其核心是相同比例的十进制数。有很多职位(~600 行),还有很多年(~12 列)。

我的问题是:MDS 的正确输入是数据矩阵(年与职位),还是我可以放入相关矩阵(年与年)?我问是因为 API 文档与书面描述冲突。

API文档说数据矩阵:http ://scikit-learn.org/stable/modules/generated/sklearn.manifold.MDS.html#sklearn.manifold.MDS(即n_samples,n_features)。

书面描述说“输入相似度矩阵”:http ://scikit-learn.org/stable/modules/manifold.html

4

1 回答 1

10

如果您传递dissimilarity='euclidean'给初始估计器(或默认情况下),它将采用数据矩阵并为您计算欧几里得距离矩阵。

如果你通过dissimilarity='precomputed',它需要一个相异矩阵。

但是,文档确实对此并不十分清楚;我确信在X参数描述中添加简短注释并澄清这'euclidean'是默认设置(我必须检查源代码)的拉取请求将被接受。

于 2014-08-07T21:03:37.007 回答