问题标签 [distance-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何使用距离矩阵生成自然簇数?
我有一个距离矩阵 1609*1609,距离范围在 0~1 之间。如何使用这个矩阵来获得自然簇数?
我知道spss有一个TwoStep集群函数,可以生成特定数量的集群,但输入应该是变量列表。我只有距离矩阵,所以我认为我不能在 SPSS 中使用 TwoStep 集群。
我尝试使用hclust
in R
,但它没有给我集群的数量。我尝试使用NbClust
,但我不知道我的“矩阵”是什么。我只有相异矩阵。
样本数据如下。
我hclust
用来绘制情节,但这不是我想要的。
我想自动生成组号,所以我尝试NbClust
.
但它显示
提前致谢。
python - 将距离矩阵转换为 newick 字符串格式的系统发育树
我通过读取 FASTA 文件创建了一个距离矩阵,现在我被要求编写一个函数,该函数将生成一个 newick 字符串格式的系统发育树。该函数将采用距离矩阵的一个参数。你能帮我写一些代码吗?
格式示例:
打印(upgma(爱德华兹))
(E:17.00,((((F:0.50,B:0.50):5.75,G:6.25):2.00,(D:4.00,A:4.00):4.25):6.25,C:14.50):2.50)
apache-spark - 如何计算火花中的距离矩阵?
我尝试过配对样本,但它会消耗大量内存,因为 100 个样本会导致 9900 个样本,成本更高。在火花的分布式环境中计算距离矩阵的更有效方法是什么
这是我正在尝试的伪代码片段
上面的代码创建了对,但即使我的数据集包含 100 个样本,通过配对过滤的样本(上面)会产生 4950 个样本,这对于大数据来说可能非常昂贵
r - 大数据上的高尔距离
我想对地理数据进行聚类,以对我所在地区的景观类型进行分类。
我的数据由规则网格的每个字段的五个变量(温度、温度幅度、降水、海拔和土壤类型)组成。我有超过 100 万个字段(=数据框中的行)。
其中四个变量是数字,土壤类型是描述为数字的分类变量。(数值数据已经标准化。)我决定计算 Gower 距离相异矩阵,并在这个矩阵上执行 PCA 和层次聚类。但是,数据太大了。
我不想采样,因为变量是渐变的。我试图计算频率并对较小的数据执行高尔距离,但它仍然太大。
我想我可能(1)手动分块大数据集,(2)到每个块矩阵添加两个额外的行,其中变量的最大值和最小值作为距离分析的每个变量范围的“描述”,(3)使用gower.dist函数计算每个块的相异矩阵,(4)删除额外的行和(5)将所有块相异矩阵合并为一个大相异矩阵。
您认为这是一种正确且有效的方式吗?您对如何处理此问题有任何其他建议吗?
在相异矩阵上执行 PCA 是否正确?
r - 具有条件距离的平均 xy 点
我有点的 xy 坐标,我想利用距离来平均点。我的数据被命名,我使用函数qq
获得距离矩阵dist
我想要做的是对更接近某个阈值的点进行平均,对于这个例子,我们可以使用 80。唯一低于该限制的成对距离是 3-4 和 3-6。问题是如何回到原始矩阵和平均 xy 坐标以使 3-4 对一个点和 3-6 对另一个点(丢弃以前的点 3,4 和 6)
这dput
是我的data.frame
更新
使用一些提供的修改代码,我得到了需要在 3-4 位置和 3-6 位置替换的 2 点。这意味着我的第 3 点和第 4 点和第 6 点将不得不从 qq 中消失,这两个点应该附加到它上面
r - R类间距离矩阵
这个问题是如何从距离矩阵中提取组内和组间距离的后续问题?在 R 中。在那个问题中,他们首先计算了所有点的距离矩阵,然后简单地提取了类间距离矩阵。我有一种情况,我想绕过初始计算并直接跳到提取,即我想直接计算类间距离矩阵。从链接的示例中提取,经过调整,假设我在一个名为的数据框中有一些数据df
:
我想要的是一个距离矩阵:
R 中是否已经存在一种优雅而快速的方法来做到这一点?
编辑在收到上述一维案例的良好解决方案后,我想到了一个额外的问题:更高维的案例怎么样,如果df
看起来像这样:
而且我有兴趣再次获得 classB
中的点与class 中的点之间的欧几里得距离矩阵A
。
r - 从R中的距离矩阵中提取对角线
我想知道如何从距离矩阵中提取第一个对角线的值。
例如:
我想在向量中获取值:2.828427, 3.000000, 2.828427
谢谢!
python - 在 Python 中计算距离矩阵的更有效方法
大家好我正在尝试编写代码(使用python 2),该代码返回一个包含所有行对之间距离的矩阵。下面是我写的一个实现。它按预期工作,但随着行数变大会变得非常慢。因此,我想知道是否有人对如何使代码对大量行更有效有任何建议。
提前致谢
opencl - OpenCL:并行化滞后向量运算(三角距离矩阵)
我无法为此序列代码创建内核:
我认为主要问题在于hypot
,距离取决于同一向量中的值。或者,可能j
值取决于i
。如何使用 OpenCL 并行此代码?
(更多信息:)
在这篇文章之后,我首先尝试获取上三角距离矩阵值。这是内核代码:
int n
是length
( x
x 等于 (1,2,3,4,5,6,7,8))。然后我应该有n(n-1)/2
值(例如,总共 28 个)。我将全局和本地工作大小设置为n
(8)。和are和(28)的cl_mem
缓冲区对象的大小。但是当我读回结果时,我得到了 28 个值,但不是预期的值。我得到:(0,7,12,15,16,15,12,7,0,0,0...,0)。有什么帮助吗?x
xauto
n
n(n-1)/2
r - 在 R 中计算平方距离的更有效方法
我正在尝试编写代码(使用 R),它返回一个矩阵,其中包含所有行对之间的平方距离。下面是我写的一个实现。它按预期工作,但随着行数变大会变得非常慢。根据我的观察,这条线 (combn(x,m=2)) 运行时间最长。因此,我想知道是否有人对如何使代码对大量行更有效有任何建议。提前致谢