我喜欢在命令行中运行 ELKI k-means 聚类。
与R编程相比,运行时间似乎太短了。我尝试在 R 中运行 k-means 聚类,然后花了大约 100 秒。此外,在 k=5、k=10 等之间没有变化。
file.tsv
有 60,000 行和 25 列。
START=$(date +%s)
k=5
java -jar elki.jar KDDCLIApplication \
-dbc.in "file.tsv" \
-dbc.parser NumberVectorLabelParser \
-parser.colsep "\t" \
-algorithm clustering.kmeans.KMeansLloyd \
-kmeans.k $k \
-kmeans.initialization KMeansPlusPlusInitialMeans \
-kmeans.maxiter 9999 \
-resulthandler ResultWriter -out.gzip false \
-out output/k-$k \
END=$(date +%s)
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"
输出是"It took 5 seconds"
START=$(date +%s)
k=10
java -jar elki.jar ...
...
END=$(date +%s)
DIFF=$(( $END - $START ))
echo "It took $DIFF seconds"
这种情况k=10
也是"It took 5 seconds"
。
为什么集群大小没有变化?代码有问题吗?