问题标签 [factoextra]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1032 浏览

r - FactoMineR/factoextra 可视化树状图中的所有簇

我使用 FactoMineR 包的 HCPC 函数对数据帧执行了层次聚类。问题是,当我使用 factoextra 绘制树状图时,我无法想象我询问的集群数量。下面是我的问题的可重现示例

因子图上面确实有5个集群

在此处输入图像描述 但只有 3 个映射在树状图中

0 投票
1 回答
5431 浏览

r - 向集群添加标签

我是 R 新手,正在尝试根据行业对一些数据进行聚类。我了解到 K-means 无法处理因子和分类数据。我已经从我的数据集中删除了名为“行业”的因素——67 个不同的观察值——但希望在模型完成后为每个观察值分配一个标签。本质上,我希望我的最终结果看起来像美国犯罪数据集样本。任何帮助将不胜感激。

我的结果:

在此处输入图像描述

我的理想结果:

在此处输入图像描述

代码:

0 投票
1 回答
697 浏览

r - `row.names<-.data.frame`(`*tmp*`, value = value) 中的错误:不允许重复的 'row.names'

我使用PCAR的函数来研究主成分分析。

这是为了使问题可重现:

第一步是编写这段代码来创建一个 PCA 对象,如下所示:

然后,为了绘制变量,我使用了fviz_pca_var这样的函数:

我收到此错误:

row.names<-.data.frame( *tmp*, value = value)中的错误:
不允许重复的“row.names”另外:警告消息:1:在 data.row.names(row.names,rowsi,i) 中:一些 row.names 重复:14, 15,16,17,18,19,20,21,22 --> row.names NOT used 2:设置'row.names'时的非唯一值:'DataCRMSanoflore.Date_Sales','DataCRMSanoflore.Day_Creation_Sales',' DataCRMSanoflore.Day_Validation_Sales'、'DataCRMSanoflore.Month_Creation_Sales'、'DataCRMSanoflore.Month_Sales'、'DataCRMSanoflore.Month_Validation_Sales'、'DataCRMSanoflore.Year_Creation_Sales'、'DataCRMSanoflore.Year_Sales'、'DataCRMSanoflore.Year_Validation_Sales'</p>

请问这个问题怎么解决?

0 投票
1 回答
1811 浏览

r - 删除或隐藏数据点的标签

我有下面的数据框:

我正确处理以创建一个集群散点图:

我想删除点的标签,但我不明白为什么它们会出现,而在下面的情况下却没有。

0 投票
1 回答
237 浏览

r - pca 和集群分析,计算速度很慢

我的数据有 30,000 行和 140 列,我正在尝试对数据进行聚类。我正在做一个 pca,然后使用大约 12 个 pc 用于聚类分析。我随机抽取了 3000 个观察样本并运行它,运行 pca 和层次聚类需要 44 分钟。

一位同事在 SPSS 中做了同样的事情,而且花费的时间明显减少了?知道为什么吗?

这是我的代码的简化版本,它运行良好,但在超过 2000 次观察时确实很慢。我包含了非常小的 USArrest 数据集,因此它并不能真正代表我的问题,但显示了我正在尝试做的事情。我对发布大型数据集犹豫不决,因为这似乎很粗鲁。

我不确定如何加快集群速度。我知道我可以对数据进行随机抽样,然后使用预测函数将集群分配给测试数据。但最佳情况下,我想使用集群中的所有数据,因为数据是静态的,永远不会改变或更新。

知道为什么 SPSS 这么快吗?

知道如何加快速度吗?我知道集群是劳动密集型的,但我不确定效率的门槛是多少,我的 30,000 条记录和 140 个变量的数据。

其他一些集群包是否更有效?建议?

0 投票
0 回答
228 浏览

r - fviz_pca_biplot 中的调色板参数无法更改调色板

fviz_pca_biplot函数(来自factoextra包)中的调色板参数无法更改颜色。我添加了habillage参数,并且功能正常工作,除了颜色。这是一个错误,还是我不明白这个功能?相同的参数与fviz_pca_ind完美配合。

0 投票
2 回答
236 浏览

r - 在 R 散点图中插入新矩阵

我想在我的散点图中插入来自另一个矩阵的新坐标。我正在使用 fviz_cluster 函数为集群生成图形。我想在我的图表中插入称为质心的矩阵坐标,因为它们是安装肥料堆肥机的每个集群的最佳坐标。我只能为附加的属性生成散点图。代码如下:

在此处输入图像描述

新散点图

在此处输入图像描述

考虑经度和纬度的散点图

在此处输入图像描述

0 投票
1 回答
281 浏览

r - R 中按组划分的树状图的颜色分支(没有 h 或 k 元素)

我想通过在数据框中定义的特定组为树状图的分​​支着色。

这只会使树枝染成红色。为什么?我该如何解决 在此处输入图像描述

编辑:当我这样做时它有效

只为未来的读者。但实际上我无法以模拟方式为树状图着色。我没有用于定义集群的kor元素。h就像在 iris 中一样,我已经预定义了要着色的集群。

0 投票
2 回答
305 浏览

r - 无法将 k 均值算法应用于我的数据集 do_one(nmeth) 中的错误:外部函数调用中的 NA/NaN/Inf

所以我试图用fviz_nbclust函数估计实际的集群数量,但它并没有停止向我显示这个错误:

do_one(nmeth) 中的错误:外部函数调用中的 NA/NaN/Inf (arg 1)

此外警告消息:

1:在 stats::dist(x) 中:强制引入的 NA

2:在 storage.mode(x) <- "double" :强制引入的 NA

我已经使用sum(is.na(stand_numeric_data$variable))了我的数据集的所有列,它为所有变量返回 0,所以我假设我没有 NA 值。有小费吗?我是编程新手,所以任何建议都将不胜感激。

do_one(nmeth) 中的错误:外部函数调用中的 NA/NaN/Inf (arg 1)

此外警告消息:

1:在 stats::dist(x) 中:强制引入的 NA

2:在 storage.mode(x) <- "double" :强制引入的 NA

0 投票
1 回答
574 浏览

r - 在 fviz_pca_biplot 中为 var 和 ind 指定不同的点形状

有没有办法为fviz_pca_biplot()R 包 FactoExtra 中的变量指定形状?

例如我有以下代码:

但它使varind的形状相同,我希望var的形状不同(形状 15)。当 geom.var = c("point", "text") 设置为 point 时,参数“pointshape”似乎同时适用于varind 。

我试过使用scale_shape_manual()

但它不适用,我猜这是由于geom中的“点”使用geom_point,我无法指定我想应用它的点,但这只是一个疯狂的猜测。

是否可以将varind的pointshape 设置为不同的值,然后如何完成?