我有一个数据集,其中包含具有以下属性的数据点:
- 平均每日能源消耗
- 日均发电量
- 能源类型
- 输入电网的平均每日能量
- 每日能源费
我是聚类技术的新手。
所以我的问题是哪种聚类算法最适合这种数据形成聚类?
我有一个数据集,其中包含具有以下属性的数据点:
我是聚类技术的新手。
所以我的问题是哪种聚类算法最适合这种数据形成聚类?
我认为层次聚类是一个不错的选择。看看这里聚类算法
1)首先,尝试使用k-means。如果这能满足你的需求,那就是它。使用不同数量的集群(由参数 k 控制)。k-means 有许多实现,如果您有良好的编程技能,您可以实现自己的版本。
如果数据看起来像圆形/球形,K-means 通常效果很好。这意味着数据中存在一些高斯性(数据来自高斯分布)。
2) 如果 k-means 不能满足你的期望,是时候多阅读和思考了。然后我建议阅读一篇好的调查论文。最常见的技术在几种编程语言和数据挖掘框架中实现,其中许多都可以免费下载和使用。
3)如果应用最先进的聚类技术还不够,是时候设计一种新技术了。然后你可以自己思考或与机器学习专家联系。
更简单的聚类方法是使用 kmeans 算法。如果您的所有属性都是数字的,那么这是进行聚类的最简单方法。即使不是,您也必须为分类或名义属性找到一个距离度量,但 kmeans 仍然是一个不错的选择。Kmeans 是一种分区聚类算法......我不会在这种情况下使用层次聚类。但这也取决于你想做什么。您需要评估是否要在集群中找到集群,或者它们都必须彼此完全分开并且不相互包含。
小心。