1

我有一个数据集,其中包含具有以下属性的数据点:

  • 平均每日能源消耗
  • 日均发电量
  • 能源类型
  • 输入电网的平均每日能量
  • 每日能源费

我是聚类技术的新手。

所以我的问题是哪种聚类算法最适合这种数据形成聚类?

4

4 回答 4

0

我认为层次聚类是一个不错的选择。看看这里聚类算法

于 2015-06-06T12:34:28.527 回答
0

1)首先,尝试使用k-means。如果这能满足你的需求,那就是它。使用不同数量的集群(由参数 k 控制)。k-means 有许多实现,如果您有良好的编程技能,您可以实现自己的版本。

如果数据看起来像圆形/球形,K-means 通常效果很好。这意味着数据中存在一些高斯性(数据来自高斯分布)。

2) 如果 k-means 不能满足你的期望,是时候多阅读和思考了。然后我建议阅读一篇好的调查论文。最常见的技术在几种编程语言和数据挖掘框架中实现,其中许多都可以免费下载和使用。

3)如果应用最先进的聚类技术还不够,是时候设计一种新技术了。然后你可以自己思考或与机器学习专家联系。

于 2017-06-19T14:09:00.050 回答
0

更简单的聚类方法是使用 kmeans 算法。如果您的所有属性都是数字的,那么这是进行聚类的最简单方法。即使不是,您也必须为分类或名义属性找到一个距离度量,但 kmeans 仍然是一个不错的选择。Kmeans 是一种分区聚类算法......我不会在这种情况下使用层次聚类。但这也取决于你想做什么。您需要评估是否要在集群中找到集群,或者它们都必须彼此完全分开并且不相互包含。

小心。

于 2016-07-15T10:00:44.940 回答
0

由于您的大部分数据是连续的,并且可以合理地假设能源消耗和发电量呈正态分布,因此我将使用统计方法进行聚类。

如:

这些方法相对于基于度量的聚类算法(例如k-means)的优势在于我们可以利用我们正在处理平均值的事实,并且我们可以对计算这些平均值的分布做出假设。

于 2017-06-19T14:18:38.103 回答