0

我试图自学 ML 并遇到了这个问题。非常感谢该领域更有经验的人的帮助!

假设我有三个向量,其中包含浴室、客厅和厨房等房屋隔间的区域。数据包括大约 70,000 所房屋。每个单独向量的直方图显然具有双峰分布的证据,例如双分量高斯混合。我现在想要某种 ML 算法,最好是无监督的,它可以根据这些属性对房屋进行分类。说:大浴室,小厨房,大客厅。

更具体地说,我想要一种算法来为每个双峰分布向量选择最佳可能的分离阈值,比如大/小厨房(这可以是二元的,因为我们假设有双峰的证据),对其他人做同样的事情并对数据进行聚类. 理想情况下,这将带有一些信心措施,以便我可以检查处于中间状态的房屋……例如,一栋带有明显大厨房的房屋,但其浴室将接近大/小浴室的阈值区域/边界例如,放在“大厨房和大浴室”列表的底部。由于这个原因,首先决定一个阈值(用不太可能的 FDR 拟合高斯),折叠数据然后聚类是不可取的。

关于如何进行的任何建议?我知道 R 和 python。

非常感谢!!

4

3 回答 3

1

您正在寻找的是一种聚类方法:这基本上是无监督分类。一个简单的方法是k-means,它有很多实现(k-means 可以看作是多元高斯混合的极限,因为方差趋于零)。这自然会给您一个置信度度量,该度量与所讨论的点和质心之间的距离度量(欧几里得距离)有关。

最后一点:我不知道依次聚类每个属性,然后从独立的属性中合成:为什么不让算法在多维空间中找到聚类呢?根据算法的选择,这将考虑特征的协方差(大厨房增加大卧室的概率)并产生您可能不会单独考虑的自然分组。

于 2013-04-03T10:06:53.420 回答
1

听起来您想要使用混合高斯模型进行 EM 聚类。

应该mclust在 R 的包中。

于 2013-04-22T15:36:56.867 回答
0

除了其他人的建议之外,确实可以在各个维度上进行聚类(甚至可能是基于密度的聚类方法,例如 DBSCAN),形成一维聚类(区间)并从那里开始工作,可能将它们组合成多个维的矩形簇。

我正在做一个涉及这个的项目。事实证明,在一维中运行基于密度的方法有一些优点,包括您可以按照您所说的根据对象的其他属性对一个属性边界上的对象进行分类。

于 2013-05-07T08:24:57.913 回答