“distance-matrix”的相关标签问题

0 投票

1 回答

528 浏览

r - 如何使用距离矩阵生成自然簇数？

我有一个距离矩阵 1609*1609，距离范围在 0~1 之间。如何使用这个矩阵来获得自然簇数？

我知道spss有一个TwoStep集群函数，可以生成特定数量的集群，但输入应该是变量列表。我只有距离矩阵，所以我认为我不能在 SPSS 中使用 TwoStep 集群。

我尝试使用hclustin R，但它没有给我集群的数量。我尝试使用NbClust，但我不知道我的“矩阵”是什么。我只有相异矩阵。

样本数据如下。

我hclust用来绘制情节，但这不是我想要的。

我想自动生成组号，所以我尝试NbClust.

但它显示

提前致谢。

r matrix cluster-computing distance-matrix

2016-05-21T00:18:59.030

0 投票

1 回答

1011 浏览

python - 将距离矩阵转换为 newick 字符串格式的系统发育树

我通过读取 FASTA 文件创建了一个距离矩阵，现在我被要求编写一个函数，该函数将生成一个 newick 字符串格式的系统发育树。该函数将采用距离矩阵的一个参数。你能帮我写一些代码吗？

格式示例：

打印（upgma（爱德华兹））

(E:17.00,((((F:0.50,B:0.50):5.75,G:6.25):2.00,(D:4.00,A:4.00):4.25):6.25,C:14.50):2.50)

python bioinformatics biopython distance-matrix

2016-05-27T19:57:01.627

0 投票

3 回答

4406 浏览

apache-spark - 如何计算火花中的距离矩阵？

我尝试过配对样本，但它会消耗大量内存，因为 100 个样本会导致 9900 个样本，成本更高。在火花的分布式环境中计算距离矩阵的更有效方法是什么

这是我正在尝试的伪代码片段

上面的代码创建了对，但即使我的数据集包含 100 个样本，通过配对过滤的样本（上面）会产生 4950 个样本，这对于大数据来说可能非常昂贵

apache-spark distance-matrix bigdata

2016-06-14T10:47:22.477

0 投票

0 回答

1258 浏览

r - 大数据上的高尔距离

我想对地理数据进行聚类，以对我所在地区的景观类型进行分类。

我的数据由规则网格的每个字段的五个变量（温度、温度幅度、降水、海拔和土壤类型）组成。我有超过 100 万个字段（=数据框中的行）。

其中四个变量是数字，土壤类型是描述为数字的分类变量。（数值数据已经标准化。）我决定计算 Gower 距离相异矩阵，并在这个矩阵上执行 PCA 和层次聚类。但是，数据太大了。

我不想采样，因为变量是渐变的。我试图计算频率并对较小的数据执行高尔距离，但它仍然太大。

我想我可能（1）手动分块大数据集，（2）到每个块矩阵添加两个额外的行，其中变量的最大值和最小值作为距离分析的每个变量范围的“描述”，（3）使用gower.dist函数计算每个块的相异矩阵，（4）删除额外的行和（5）将所有块相异矩阵合并为一个大相异矩阵。

您认为这是一种正确且有效的方式吗？您对如何处理此问题有任何其他建议吗？

在相异矩阵上执行 PCA 是否正确？

r distance distance-matrix bigdata

2016-07-19T21:44:43.297

0 投票

2 回答

333 浏览

r - 具有条件距离的平均 xy 点

我有点的 xy 坐标，我想利用距离来平均点。我的数据被命名，我使用函数qq获得距离矩阵dist

我想要做的是对更接近某个阈值的点进行平均，对于这个例子，我们可以使用 80。唯一低于该限制的成对距离是 3-4 和 3-6。问题是如何回到原始矩阵和平均 xy 坐标以使 3-4 对一个点和 3-6 对另一个点（丢弃以前的点 3,4 和 6）

这dput是我的data.frame

更新

使用一些提供的修改代码，我得到了需要在 3-4 位置和 3-6 位置替换的 2 点。这意味着我的第 3 点和第 4 点和第 6 点将不得不从 qq 中消失，这两个点应该附加到它上面

r coordinates distance euclidean-distance distance-matrix

2016-07-27T14:09:53.347

0 投票

2 回答

483 浏览

r - R类间距离矩阵

这个问题是如何从距离矩阵中提取组内和组间距离的后续问题？在 R 中。在那个问题中，他们首先计算了所有点的距离矩阵，然后简单地提取了类间距离矩阵。我有一种情况，我想绕过初始计算并直接跳到提取，即我想直接计算类间距离矩阵。从链接的示例中提取，经过调整，假设我在一个名为的数据框中有一些数据df：

我想要的是一个距离矩阵：

R 中是否已经存在一种优雅而快速的方法来做到这一点？

编辑在收到上述一维案例的良好解决方案后，我想到了一个额外的问题：更高维的案例怎么样，如果df看起来像这样：

而且我有兴趣再次获得 classB中的点与class 中的点之间的欧几里得距离矩阵A。

r distance-matrix

2016-08-22T23:30:16.410

0 投票

2 回答

1781 浏览

r - 从R中的距离矩阵中提取对角线

我想知道如何从距离矩阵中提取第一个对角线的值。

例如：

我想在向量中获取值：2.828427, 3.000000, 2.828427

谢谢！

r matrix distance diagonal distance-matrix

2016-08-30T15:45:55.407

0 投票

3 回答

1882 浏览

python - 在 Python 中计算距离矩阵的更有效方法

大家好我正在尝试编写代码（使用python 2），该代码返回一个包含所有行对之间距离的矩阵。下面是我写的一个实现。它按预期工作，但随着行数变大会变得非常慢。因此，我想知道是否有人对如何使代码对大量行更有效有任何建议。

提前致谢

python performance distance-matrix

2016-09-22T08:18:20.280

0 投票

0 回答

96 浏览

opencl - OpenCL：并行化滞后向量运算（三角距离矩阵）

我无法为此序列代码创建内核：

我认为主要问题在于hypot，距离取决于同一向量中的值。或者，可能j值取决于i。如何使用 OpenCL 并行此代码？

（更多信息：）

在这篇文章之后，我首先尝试获取上三角距离矩阵值。这是内核代码：

int n是length( xx 等于 (1,2,3,4,5,6,7,8))。然后我应该有n(n-1)/2值（例如，总共 28 个）。我将全局和本地工作大小设置为n(8)。和are和(28)的cl_mem缓冲区对象的大小。但是当我读回结果时，我得到了 28 个值，但不是预期的值。我得到：（0,7,12,15,16,15,12,7,0,0,0...,0）。有什么帮助吗？xxautonn(n-1)/2

opencl distance distance-matrix

2016-09-30T18:51:51.797

0 投票

0 回答

543 浏览

r - 在 R 中计算平方距离的更有效方法

我正在尝试编写代码（使用 R），它返回一个矩阵，其中包含所有行对之间的平方距离。下面是我写的一个实现。它按预期工作，但随着行数变大会变得非常慢。根据我的观察，这条线 (combn(x,m=2)) 运行时间最长。因此，我想知道是否有人对如何使代码对大量行更有效有任何建议。提前致谢

r performance time distance-matrix

2016-10-21T04:05:02.223

问题标签 [distance-matrix]

Reference