问题标签 [r-daisy]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

40 问题

0 投票

1 回答

94 浏览

cluster-analysis - 如何确定 R 中分类数据的聚类方法？

我正在尝试对混合数据（人口统计变量+李克特从 1 到 10 的偏好）进行聚类分析。我正在尝试使用函数 daisy() 对混合数据应用层次聚类，但是当我计算拟合优度 - 共生相关性时，得分为 0.60，这不是很高。

我怎样才能提高合身度？分层方法是否适合此数据？李克特量表数据应该被视为因素还是数字？另外，在调用-hclust(seg.dist, method="complete")时，这个方法适合我的数据吗？

我也尝试了潜在类分析，但结果并不有趣（除非我做错了）

计算共生相关性：

cor(cophenetic(seg.hc), seg.dist)

2019-10-10T10:33:14.053

0 投票

1 回答

1347 浏览

r - 如何在 R 中创建具有菊花函数的相异矩阵？

我想pam使用 R 中的函数执行聚类分析，daisy用于创建相异矩阵。我的数据包含 2 列（ID 和疾病）。两者都是具有很多值的因子（分别为 400 和 1800）。如何创建对数据进行聚类所需的相异矩阵pam？

示例数据框：

我可以daisy在此数据帧上运行该函数还是必须将其转换为另一种格式？

r r-daisy

2020-01-21T08:19:14.210

0 投票

1 回答

626 浏览

r - 在 R 中使用 daisy 和 pam 进行聚类

我正在尝试执行一个非常简单的聚类分析，但无法得到正确的结果。我对大型数据集的问题是“哪些疾病经常一起报告？”。下面的简化数据样本应导致 2 个集群：1) 头痛/头晕 2) 恶心/腹痛。但是，我无法正确获取代码。我正在使用pamanddaisy函数。对于这个例子，我手动分配了 2 个集群 (k=2)，因为我知道所需的结果，但实际上我探索了几个 k 值。

有谁知道我在这里做错了什么？

r cluster-analysis r-daisy

2020-02-20T11:24:51.770

0 投票

1 回答

68 浏览

r - cluster::daisy 丢弃标签

我正在尝试使用 cluster::daisy 函数和相异矩阵对数据进行聚类。数据如下图所示。

分数显示了对象的不同程度（值越大，对象越多。），所以我使用了相异矩阵和菊花函数。

但是当我尝试绘制 hclust 时，会打印一些数字而不是 ID。

因此，关于簇中对象的信息丢失了。如何返回有关初始 ID 的信息并了解集群中的哪些 ID？

r cluster-analysis hierarchical-clustering r-daisy

2020-07-02T12:14:28.123

0 投票

0 回答

58 浏览

html - 使用 daisydiff.jar 比较 HTML 数据时表格失真

使用 daisydiff.jar 比较两个 HTML 表格数据时，左侧表格失真。

我需要你的支持来解决这个问题。提前致谢

使用下面的代码

html r r-daisy

2020-07-20T07:54:18.900

0 投票

0 回答

168 浏览

r - 使用 R 中的菊花函数的列的类型字符无效

我试图在我的数据集上运行这个函数，但我一直收到invalid type character for column错误，很明显这个错误是由于某些列是非数字的，但我该如何解决这个问题？我尝试运行我在 Stack Overflow 上的类似问题上找到的解决方案。

但这似乎并没有解决我的问题。同样的错误不断出现。帮助将不胜感激。谢谢。

r distance-matrix r-daisy

2020-11-08T16:04:01.687

0 投票

1 回答

48 浏览

r - 菊花函数的速度

我正在努力提高我正在编写的函数的速度（用于差异度量），它在数学上与欧几里得距离函数非常相似。但是，当我将我的函数与包中实现的函数进行比较时daisy，cluster我发现速度上有很大差异，daisy性能要好得多。鉴于（我假设）O(n x p)由于需要在所有变量上将每个对象与自身进行比较（其中n对象的数量和p是变量的数量），相对于我简单直接的实现，我发现很难理解 daisy 函数如何表现得如此出色（接近恒定时间，从我所做的几个实验来看）。我在下面展示了我用来实现和测试的代码。我曾尝试查看r源代码以了解该daisy功能的实现，但我发现很难理解。我发现没有嵌套for循环。任何帮助理解为什么这个函数执行得如此之快以及我如何修改我的代码以获得类似的速度将非常感激。

r performance similarity r-daisy

2021-07-01T23:31:52.870

0 投票

1 回答

69 浏览

r - 如何使用 R 中的 daisy (gower) 制作样本与特征聚类热图？

我还在学习聚类方法。

我有一个混合类型的数据集：连续的、二进制的、分类的。我读过一些文章，使用“gower”是混合类型数据的一个很好的聚类距离。所以我想尝试一下并制作一个探索性的热图。

但我不知道如何制作热图，从菊花函数中采样与特征。

我从中得到的gower_dist是一个相异矩阵，但是如何在样本上使用高尔距离与使用 pheatmap 的特征热图？喜欢这篇文章中的热图吗？

谢谢！

r cluster-analysis hierarchical-clustering pheatmap r-daisy

2021-12-06T03:50:17.543

0 投票

0 回答

20 浏览

r - 使用菊花包在 R 中进行聚类 - 如何确定最佳聚类数

我试图通过菊花函数使用层次聚类对数据集进行聚类。

但我不知道下一步该怎么做——确定最佳聚类数。你能建议任何方法吗？

这是我的数据：

r r-daisy

2022-01-02T15:21:31.487

0 投票

0 回答

19 浏览

r - 如何在 R 中使用 gower 对变量进行聚类？

我有一个混合类型的数据集：连续的、二进制的、分类的。

我读过一些文章，使用“gower”是混合类型数据的一个很好的聚类距离。所以我想尝试一下并制作一个探索性热图（对行和列进行聚类）。对于一个最小的例子：

我可以使用gower_sample_dist <- daisy(agriculture, metric = "gower"). 但是，如果我需要获取热图，我还需要对变量进行聚类，我无法使用gower_variable_dist <- daisy(t(agriculture), metric = "gower").

有没有办法使用获得关于变量的聚类/不相似矩阵gower？

谢谢！

r cluster-analysis hierarchical-clustering r-daisy feature-clustering

2022-01-24T14:13:44.593

1 2 3 4 5 6 7 8 9 10

问题标签 [r-daisy]

Reference