问题标签 [feature-clustering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
53 浏览

python - 大型多维数据的无监督聚类

您好,我是机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过 15 个维度的数据,大约 50 - 8 万行。数据看起来像这样(15 个参与者,每个参与者的行数几乎相等,15 个特征) -

参与者 时间 特色一 功能2...
1 0.05
1 0.10
2 0.05
2 0.10
2 0.15

数据由许多参与者组成,每个参与者都有多行数据,并带有其特征的时间戳。我的目标是根据参与者对这些数据进行聚类,并根据这些聚类进行推断。这里的问题是每个参与者都有很多行,我不能用一个点来代表每个参与者,所以对它们进行聚类似乎是一项艰巨的任务。

我需要帮助:

  1. 对这些数据进行聚类以便我可以根据参与者做出推断的最佳方法是什么?

  2. 我应该使用哪种聚类技术?我已经尝试过 sklearn 的 Kmeans、meanshift 和其他库,但是它们花费的时间太长并且使我的系统崩溃。

对不起,如果有点难以理解,我会尽力回答你的问题。预先感谢您的帮助。如果这个问题与其他问题非常相似,请告诉我(我找不到它)。

谢谢 :)

0 投票
0 回答
34 浏览

pipeline - 通过聚类和管道生成特征

使用 k-means 进行聚类是在机器学习中生成新特征的一种有用方法,正如这里所解释的那样

但是,到目前为止,我看到的所有这种技术的实例都是单独应用的,而不是作为预处理/特征工程管道的一部分。所以我的问题是:

是否可以将 ‍‍‍‍“k-mean clustering for feature generation”作为预处理(或特征工程)管道的一部分,就像插补、缩放等一样?

0 投票
1 回答
76 浏览

python - ValueError:“_index”是数据框列的保留名称

我正在尝试将文件保存为 h5ad 格式,它给出了这个值错误;ValueError: '_index' 是数据框列的保留名称。

0 投票
1 回答
57 浏览

python - 聚类后​​如何逆变换

我想在使用 MinMaxScaler 对缩放数据集进行 K 均值聚类后恢复我的数据,这是我的代码示例

缩放器被保存;我试过类似的东西:x = scaler.inverse_transform(x)

与我的 scaled_df (簇号)相比,我的 copy_df 应该多一列

我想这就是为什么我得到:

我怎样才能恢复我的数据?

我需要获取集群的真实数据或每个特征的平均值。

0 投票
0 回答
19 浏览

r - 如何在 R 中使用 gower 对变量进行聚类?

我有一个混合类型的数据集:连续的、二进制的、分类的。

我读过一些文章,使用“gower”是混合类型数据的一个很好的聚类距离。所以我想尝试一下并制作一个探索性热图(对行和列进行聚类)。对于一个最小的例子:

我可以使用gower_sample_dist <- daisy(agriculture, metric = "gower"). 但是,如果我需要获取热图,我还需要对变量进行聚类,我无法使用gower_variable_dist <- daisy(t(agriculture), metric = "gower").

有没有办法使用 获得关于变量的聚类/不相似矩阵gower

谢谢!