python - 聚类重叠椭圆

Question

我有一个数据集，其中包含多个数据子集。如果我绘制 Y 与 X，我会得到几个重叠的椭圆，我想对它们进行聚类*。

我已经尝试过mixturefrom sklearn，它Bayesian Gaussian Mixture Model给出了最好的结果，但是，它不能识别重叠的数据：

import itertools
import numpy as np
import pylab as plt
from sklearn import mixture
from matplotlib.patches import Ellipse
field_File_1 = './dummy_distrib_3.txt' 
'''
    link to data: 
    https://www.dropbox.com/s/jd3wx1ee8r1mj8p/dummy_distrib_3.txt?dl=0
'''
my_dis_1 = np.loadtxt(field_File_1)

X = my_dis_1[:50000,:2]

BaGaMiMo = mixture.BayesianGaussianMixture(n_components=2, covariance_type='full', 
                                         weight_concentration_prior_type='dirichlet_distribution').fit(X)

X1 = X[BaGaMiMo.predict(X) == 0, :]
X2 = X[BaGaMiMo.predict(X) == 1, :]

plt.figure(figsize=(18.0, 6.0))
plt.subplot(1,3,1)
plt.scatter(X[:,0], X[:,1], 0.2, color='m')

plt.subplot(1,3,2)
plt.scatter(X[BaGaMiMo.predict(X) == 0, 0], X[BaGaMiMo.predict(X) == 0, 1], .2, color='navy')

plt.subplot(1,3,3)
plt.scatter(X[BaGaMiMo.predict(X) == 1, 0], X[BaGaMiMo.predict(X) == 1, 1], .2, color='c')
plt.show()

接下来我要做的是将两个椭圆拟合到青色和海军色分布中，并从青色分布中去除横截面中的颗粒，

然后使用计算的比率将它们随机分配给海军和青色分布：

一个问题是，如果我对数据进行直方图，我注意到两个椭圆相交线处的青色数据存在人口过剩/不连续性，我正在寻找减少人口过剩的方法，任何帮助表示赞赏。

jupyter-notebook可以在这里下载：https ://www.dropbox.com/s/z1tdgpx1g1lwtb5/Clustering.ipynb?dl=0

.* 数据点属于两组带电粒子。

score 3 · Accepted Answer

也许这会有所帮助。我用predict_proba()而不是predict()来获得一个点属于任一组的概率。然后我玩了cutoff。将截止值设置为 0.5，我得到了和你一样的结果。经过一些试验和错误，0.933 的截止值似乎可以解决问题。

p1 = X[BaGaMiMo.predict_proba(X)[:,0] > 0.933, :]
p2 = X[BaGaMiMo.predict_proba(X)[:,0] <= 0.933, :]
plt.scatter(p1[:,0], p1[:,1], 0.2, color='m')
plt.scatter(p2[:,0], p2[:,1], 0.2, color='navy')

python - 聚类重叠椭圆

1 回答 1

Related

Reference