2

我有以下问题:

我有一个表示为顶点 v0、v1、...、vN 的网页列表。

我有图表 g0、g1、...、gM,它们有边缘列表,显示用户在访问网站期间访问的页面,例如:

  1. g0: (v3, v44) ; (v44, v5)
  2. g1: (v3, v44) ; (v44, v5) ; (v5, v7)
  3. ...
  4. GM:...

我希望使用这些数据来开发网页访问模式集群。

我正在寻找: 1. 可以帮助我解决这个问题的算法的论文、博客等。2.开源代码,解决这个问题的代码片段。

提前致谢。

笔记:

我知道并使用图聚类算法。我正在寻找特定于这个应用程序的东西。

4

1 回答 1

1

看起来您的数据实际上包括用户、网页和其他网页之间的超边缘以及时间因素。有一些关于张量分解的研究可能会解决这些类型的问题,但最好放弃其中一个边缘维度和/或时间分量以利用更好研究的方法。

这里有两种可能的方法:

  1. 您可以只查看网页之间的边缘并使用随机块模型分析点击链接。Eric Xing 在这方面做了一些有趣的工作: http ://www.cs.cmu.edu/~epxing/papers/2009/fu_song_xing_icml09.pdf 。

  2. 您可以只查看不同用户访问了哪些网页(丢弃网页之间的链接)并使用协同过滤(http://www2.research.att.com/~volinsky/netflix/)或协同聚类方法(谷歌“coclustering”)。

于 2013-01-03T23:33:19.853 回答