我有一个来自访问网络日志文件的数据集,我有兴趣找到类似的集群。(我是数据挖掘的绝对初学者)。到目前为止,我已经参考了许多关于同一问题领域的研究论文。
使用 k-means 聚类对 Web 查询的用户意图进行分类
我想使用 k-means 聚类来聚类网页。尽管这些论文讨论了该算法,但它们并没有具体说明提供输入数据集的方式。k-means
使用欧几里得距离计算数据点之间的相似度。那么如何规范化我要使用的数据集来挖掘,k-means
因为 url 不能直接用于 k-means。对此有任何帮助/好的参考吗?
示例数据集(p1..pn 是不同的网页)
p1,p2,p3,p4
p1,p2
p1,p5,p6,p7
p1,p2,p3,p5