我想将我自己的数据(位于 .txt 文件中的句子)导入此示例算法,可以在以下位置找到:https ://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html
问题是这段代码使用了make_blobs数据集,我很难理解如何用 .txt 文件中的数据替换它。
我预测的是我需要在这里替换这段代码:
X, y = make_blobs(n_samples=500,
n_features=2,
centers=4,
cluster_std=1,
center_box=(-10.0, 10.0),
shuffle=True,
random_state=1) # For reproducibility
我也不明白这些变量X, y。我假设X是一个数据数组,那么y呢?
我应该像这样将所有内容分配给 X 并且示例代码可以工作吗?但是那些像中心、n_features 等make_blob特征呢?我需要以不同的方式指定它们吗?
# open and read from the txt file
path = "C:/Users/user/Desktop/sentences.txt"
file = open(path, 'r')
# assign it to the X
X = file.readlines()
任何帮助表示赞赏!