我已经从数据 txt 加载了一个数据集。在我的案例中,数据集已经通过了文本预处理和术语加权。如果我使用的数据集来自矩阵(术语权重的输出),我对如何使用另一个数据形状(如数组)感到非常困惑:
# Choose Centroid : Random
def centroids(center=None):
if center == None:
return "k-means++"
else:
if center.shape == (true_k,X.shape[1]):
return center
else:
return "k-means++"
# start of centroid : Random
center = (None)
# Step Clustering
true_k = 4
init = centroids(center)
print(init)
model = KMeans(n_clusters=true_k,init=init, max_iter=2, n_init=10)
model.fit(X)
labels=model.labels_
cl=pd.DataFrame(list(zip(docs,labels)),columns=['title','cluster'])
print(cl.sort_values(by=['cluster']))