1

我正在尝试PageRank在一组网页上实现算法,因为我需要一个dataset网页样本,以及与它们对应的网页图,这个网页图表示数据集包含的页面之间的链接。

我需要网络图,以便获取转换矩阵并进行所需的计算。例子:

URL1 -> URL2
URL3390 -> URL5

URLxxxx是一个id,以某种方式映射到相应的网页

我的问题是:我如何/在哪里可以获得这个资源(我在互联网上尝试了很多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制),如果我不能就这样,你能给我一些关于我应该做什么的建议吗?

更新:对于那些可能认为这个离题的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,并且不适合这个问题,我感谢你的帮助.

4

2 回答 2

3

可能 Site Visualizer 是您正在寻找的工具。该应用程序具有生成可视站点地图的功能。

下载并安装应用程序(标准版或专业版),单击创建新项目工具按钮,键入您需要抓取的网站的 URL,然后单击开始按钮。

爬取完成后,单击Visual Sitemap选项卡上的Draw按钮。网站的图表将绘制为一组页面(矩形)和链接(带箭头的线)。单击一个框以选择特定页面并突出显示其出站链接: 生成视觉站点地图

您可以使用“所有链接”报告(在“报告”选项卡上)获得网站所有链接的数据集。' From URL ' 和 ' To URL ' 列是您需要的。

除此之外,您可以使用特定的 SQL 查询来表示已抓取网站的页面或链接的数据集。例如,转到数据库选项卡,键入以下查询并单击执行工具按钮:

SELECT * FROM links WHERE link_type='A'

结果集将仅包含A 标记链接,不包括图像、CSS 文件、JS 等。

该程序具有功能齐全的 30 天试用期,因此您可以免费执行任务。

于 2014-04-30T05:48:51.470 回答
1

您可以尝试搜索用于 PageRank 论文补充信息的数据集。这是一个例子:本文: http: //langvillea.people.cofc.edu/ReorderingPageRank.pdf

使用此数据集: http ://www.cs.cornell.edu/Courses/cs685/2002fa/data/gr0.California ,据推测包含 9,664 个节点和 16,773 个链接。链接位于文件的末尾,并且看起来与您正在寻找的连接格式相似。

从此页面(也有其他数据集): http ://www.cs.cornell.edu/Courses/cs685/2002fa/

这是聚合网络数据集的其他一些页面:

  1. http://snap.stanford.edu/data/,具体参见 http://snap.stanford.edu/data/web-Stanford.html
  2. http://www.datawrangling.com/some-datasets-available-on-the-web
  3. http://networkdata.ics.uci.edu/resources.php

祝你好运!

于 2014-04-30T18:20:13.127 回答