0

我已经从数据 txt 加载了一个数据集。在我的案例中,数据集已经通过了文本预处理和术语加权。如果我使用的数据集来自矩阵(术语权重的输出),我对如何使用另一个数据形状(如数组)感到非常困惑:

# Choose Centroid : Random
def centroids(center=None):
    if center == None:
          return "k-means++"
    else:
      if center.shape == (true_k,X.shape[1]):
          return center
      else:
          return "k-means++"

# start of centroid : Random
center = (None) 

# Step Clustering
true_k = 4
init = centroids(center)
print(init)
model = KMeans(n_clusters=true_k,init=init, max_iter=2, n_init=10)
model.fit(X)
labels=model.labels_
cl=pd.DataFrame(list(zip(docs,labels)),columns=['title','cluster'])
print(cl.sort_values(by=['cluster']))
4

0 回答 0