我试图自学 ML 并遇到了这个问题。非常感谢该领域更有经验的人的帮助!
假设我有三个向量,其中包含浴室、客厅和厨房等房屋隔间的区域。数据包括大约 70,000 所房屋。每个单独向量的直方图显然具有双峰分布的证据,例如双分量高斯混合。我现在想要某种 ML 算法,最好是无监督的,它可以根据这些属性对房屋进行分类。说:大浴室,小厨房,大客厅。
更具体地说,我想要一种算法来为每个双峰分布向量选择最佳可能的分离阈值,比如大/小厨房(这可以是二元的,因为我们假设有双峰的证据),对其他人做同样的事情并对数据进行聚类. 理想情况下,这将带有一些信心措施,以便我可以检查处于中间状态的房屋……例如,一栋带有明显大厨房的房屋,但其浴室将接近大/小浴室的阈值区域/边界例如,放在“大厨房和大浴室”列表的底部。由于这个原因,首先决定一个阈值(用不太可能的 FDR 拟合高斯),折叠数据然后聚类是不可取的。
关于如何进行的任何建议?我知道 R 和 python。
非常感谢!!