我正在尝试PageRank
在一组网页上实现算法,因为我需要一个dataset
网页样本,以及与它们对应的网页图,这个网页图表示数据集包含的页面之间的链接。
我需要网络图,以便获取转换矩阵并进行所需的计算。例子:
URL1 -> URL2
URL3390 -> URL5
URLxxxx
是一个id,以某种方式映射到相应的网页
我的问题是:我如何/在哪里可以获得这个资源(我在互联网上尝试了很多链接,但没有任何帮助),我也希望它不是很大,(互联网连接限制),如果我不能就这样,你能给我一些关于我应该做什么的建议吗?
更新:对于那些可能认为这个离题的人来说,他们可能是对的,像软件推荐或计算机科学这样的网络,甚至没有相应的标签,并且不适合这个问题,我感谢你的帮助.