python - 大型多维数据的无监督聚类

Question

您好，我是机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过 15 个维度的数据，大约 50 - 8 万行。数据看起来像这样（15 个参与者，每个参与者的行数几乎相等，15 个特征） -

参与者	时间	特色一	功能2...
1	0.05	值	值
1	0.10	值	值
2	0.05	值	值
2	0.10	值	值
2	0.15	值	值

数据由许多参与者组成，每个参与者都有多行数据，并带有其特征的时间戳。我的目标是根据参与者对这些数据进行聚类，并根据这些聚类进行推断。这里的问题是每个参与者都有很多行，我不能用一个点来代表每个参与者，所以对它们进行聚类似乎是一项艰巨的任务。

我需要帮助：

对不起，如果有点难以理解，我会尽力回答你的问题。预先感谢您的帮助。如果这个问题与其他问题非常相似，请告诉我（我找不到它）。

谢谢：）

score 0 · Accepted Answer

由于您在必要的计算量方面遇到问题，因此您必须在此处做出某种妥协。这里有一些建议可能会解决您的问题，但它们都是有代价的。

我的建议是进行降维，因为随着时间的推移丢失患者的数据可能会使您的数据变得无用。除了 PCA 之外，还有其他东西，例如自动编码器。为了以您的描述方式进行聚类，我建议您坚持使用 K-means 或软 K-means。

1 回答 1