algorithm - 网络导航模式挖掘/网络聚类算法/网络流量聚类方法

Question

我有以下问题：

我有一个表示为顶点 v0、v1、...、vN 的网页列表。

我有图表 g0、g1、...、gM，它们有边缘列表，显示用户在访问网站期间访问的页面，例如：

我希望使用这些数据来开发网页访问模式集群。

我正在寻找： 1. 可以帮助我解决这个问题的算法的论文、博客等。2.开源代码，解决这个问题的代码片段。

提前致谢。

笔记：

我知道并使用图聚类算法。我正在寻找特定于这个应用程序的东西。

score 1 · Accepted Answer

看起来您的数据实际上包括用户、网页和其他网页之间的超边缘以及时间因素。有一些关于张量分解的研究可能会解决这些类型的问题，但最好放弃其中一个边缘维度和/或时间分量以利用更好研究的方法。

这里有两种可能的方法：

您可以只查看网页之间的边缘并使用随机块模型分析点击链接。Eric Xing 在这方面做了一些有趣的工作： http ://www.cs.cmu.edu/~epxing/papers/2009/fu_song_xing_icml09.pdf 。
您可以只查看不同用户访问了哪些网页（丢弃网页之间的链接）并使用协同过滤（http://www2.research.att.com/~volinsky/netflix/）或协同聚类方法（谷歌“coclustering”）。

1 回答 1