“factoextra”的相关标签问题

0 投票

2 回答

1032 浏览

r - FactoMineR/factoextra 可视化树状图中的所有簇

我使用 FactoMineR 包的 HCPC 函数对数据帧执行了层次聚类。问题是，当我使用 factoextra 绘制树状图时，我无法想象我询问的集群数量。下面是我的问题的可重现示例

上面确实有5个集群

但只有 3 个映射在树状图中

2018-01-16T10:17:53.983

0 投票

1 回答

5431 浏览

r - 向集群添加标签

我是 R 新手，正在尝试根据行业对一些数据进行聚类。我了解到 K-means 无法处理因子和分类数据。我已经从我的数据集中删除了名为“行业”的因素——67 个不同的观察值——但希望在模型完成后为每个观察值分配一个标签。本质上，我希望我的最终结果看起来像美国犯罪数据集样本。任何帮助将不胜感激。

我的结果：

我的理想结果：

代码：

r cluster-analysis k-means factoextra

2018-04-30T19:42:24.077

0 投票

1 回答

697 浏览

r - `row.names<-.data.frame`(`tmp`, value = value) 中的错误：不允许重复的 'row.names'

我使用PCAR的函数来研究主成分分析。

这是为了使问题可重现：

第一步是编写这段代码来创建一个 PCA 对象，如下所示：

然后，为了绘制变量，我使用了fviz_pca_var这样的函数：

我收到此错误：

row.names<-.data.frame( *tmp*, value = value)中的错误：
不允许重复的“row.names”另外：警告消息：1：在 data.row.names(row.names,rowsi,i) 中：一些 row.names 重复：14， 15,16,17,18,19,20,21,22 --> row.names NOT used 2：设置'row.names'时的非唯一值：'DataCRMSanoflore.Date_Sales'，'DataCRMSanoflore.Day_Creation_Sales'，' DataCRMSanoflore.Day_Validation_Sales'、'DataCRMSanoflore.Month_Creation_Sales'、'DataCRMSanoflore.Month_Sales'、'DataCRMSanoflore.Month_Validation_Sales'、'DataCRMSanoflore.Year_Creation_Sales'、'DataCRMSanoflore.Year_Sales'、'DataCRMSanoflore.Year_Validation_Sales'</p>

请问这个问题怎么解决？

r factoextra

2018-06-21T07:05:32.460

0 投票

1 回答

1811 浏览

r - 删除或隐藏数据点的标签

我有下面的数据框：

我正确处理以创建一个集群散点图：

我想删除点的标签，但我不明白为什么它们会出现，而在下面的情况下却没有。

r ggplot2 ggplotly factoextra

2019-08-26T14:30:54.450

0 投票

1 回答

237 浏览

r - pca 和集群分析，计算速度很慢

我的数据有 30,000 行和 140 列，我正在尝试对数据进行聚类。我正在做一个 pca，然后使用大约 12 个 pc 用于聚类分析。我随机抽取了 3000 个观察样本并运行它，运行 pca 和层次聚类需要 44 分钟。

一位同事在 SPSS 中做了同样的事情，而且花费的时间明显减少了？知道为什么吗？

这是我的代码的简化版本，它运行良好，但在超过 2000 次观察时确实很慢。我包含了非常小的 USArrest 数据集，因此它并不能真正代表我的问题，但显示了我正在尝试做的事情。我对发布大型数据集犹豫不决，因为这似乎很粗鲁。

我不确定如何加快集群速度。我知道我可以对数据进行随机抽样，然后使用预测函数将集群分配给测试数据。但最佳情况下，我想使用集群中的所有数据，因为数据是静态的，永远不会改变或更新。

知道为什么 SPSS 这么快吗？

知道如何加快速度吗？我知道集群是劳动密集型的，但我不确定效率的门槛是多少，我的 30,000 条记录和 140 个变量的数据。

其他一些集群包是否更有效？建议？

r cluster-analysis pca factoextra

2019-10-31T16:11:56.773

0 投票

0 回答

228 浏览

r - fviz_pca_biplot 中的调色板参数无法更改调色板

fviz_pca_biplot函数（来自factoextra包）中的调色板参数无法更改颜色。我添加了habillage参数，并且功能正常工作，除了颜色。这是一个错误，还是我不明白这个功能？相同的参数与fviz_pca_ind完美配合。

r pca factoextra

2019-12-25T22:44:43.347

0 投票

2 回答

236 浏览

r - 在 R 散点图中插入新矩阵

我想在我的散点图中插入来自另一个矩阵的新坐标。我正在使用 fviz_cluster 函数为集群生成图形。我想在我的图表中插入称为质心的矩阵坐标，因为它们是安装肥料堆肥机的每个集群的最佳坐标。我只能为附加的属性生成散点图。代码如下：

在此处输入图像描述

新散点图

在此处输入图像描述

考虑经度和纬度的散点图

在此处输入图像描述

r ggplot2 factoextra

user13047398

2020-03-22T17:59:24.400

0 投票

1 回答

281 浏览

r - R 中按组划分的树状图的颜色分支（没有 h 或 k 元素）

我想通过在数据框中定义的特定组为树状图的分支着色。

这只会使树枝染成红色。为什么？我该如何解决

编辑：当我这样做时它有效

只为未来的读者。但实际上我无法以模拟方式为树状图着色。我没有用于定义集群的kor元素。h就像在 iris 中一样，我已经预定义了要着色的集群。

r dendrogram graph-coloring factoextra

2020-05-20T06:26:26.043

0 投票

2 回答

305 浏览

r - 无法将 k 均值算法应用于我的数据集 do_one(nmeth) 中的错误：外部函数调用中的 NA/NaN/Inf

所以我试图用fviz_nbclust函数估计实际的集群数量，但它并没有停止向我显示这个错误：

do_one(nmeth) 中的错误：外部函数调用中的 NA/NaN/Inf (arg 1)

此外警告消息：

1：在 stats::dist(x) 中：强制引入的 NA

2：在 storage.mode(x) <- "double" ：强制引入的 NA

我已经使用sum(is.na(stand_numeric_data$variable))了我的数据集的所有列，它为所有变量返回 0，所以我假设我没有 NA 值。有小费吗？我是编程新手，所以任何建议都将不胜感激。

do_one(nmeth) 中的错误：外部函数调用中的 NA/NaN/Inf (arg 1)

此外警告消息：

1：在 stats::dist(x) 中：强制引入的 NA

2：在 storage.mode(x) <- "double" ：强制引入的 NA

r machine-learning k-means factoextra

2020-09-15T11:26:03.077

0 投票

1 回答

574 浏览

r - 在 fviz_pca_biplot 中为 var 和 ind 指定不同的点形状

有没有办法为fviz_pca_biplot()R 包 FactoExtra 中的变量指定形状？

例如我有以下代码：

但它使var和ind的形状相同，我希望var的形状不同（形状 15）。当 geom.var = c("point", "text") 设置为 point 时，参数“pointshape”似乎同时适用于var和ind 。

我试过使用scale_shape_manual()：

但它不适用，我猜这是由于geom中的“点”使用geom_point，我无法指定我想应用它的点，但这只是一个疯狂的猜测。

是否可以将var和ind的pointshape 设置为不同的值，然后如何完成？

r pca factoextra

2020-10-08T16:43:02.137

问题标签 [factoextra]

Reference