我在论文中使用 WEKA,并且有超过 1000 行数据。该数据库包括人口统计信息(年龄、位置、状态等),然后是产品名称(值 1 或 0)。最终结果是一个推荐系统。我使用了两种聚类方法,K-Means
和DBScan
。
使用时K-means
我尝试了 3 个不同数量的集群,而使用时DBscan
我选择了 3 个不同的 epsilon(Epsilon 3 = 48 个集群,忽略了 17% 的数据,Epsilone 2.5 = 19 个集群,而集群 0 包含 229 个项目,忽略了 6%。)意思是我有相同数据的 6 个不同聚类结果。
如何选择最适合我的数据的内容?