5

我正在寻找一种方法来解析维基百科转储并检索在每个页面中找到的超链接。我的主要目标是创建一个关于从一个维基百科页面到另一个页面的可能路径的有向图。

例如:“Dog”的页面定义有一个指向“Canis lupus”的链接。所以我会有一个 Dog-> Canis Lupus 作为输出。

PS:如果有的话,我更喜欢python库。

4

2 回答 2

3

最简单的方法是使用已包含有关页面之间链接的信息的转储:pagelinks.sql。要使用它,您可以将其导入 MySQL 数据库,然后您可以从任何语言访问该数据库。要理解该转储中的数据,您还需要导入 page.sql。

于 2013-10-10T16:29:30.277 回答
-1

由于您正在尝试处理图论,因此您需要两件事 -

  • 图的制作
  • 图的实现与存储

生产

您可能会尝试使用来自 wikimedia 的 XML 转储来达到您的目的。
我建议最好的解决方案是使用某种解析脚本从文档中提取链接。

执行

要存储庞大的图形,您必须将脚本的输出存储在某种图形数据库中。在这里看看一些流行的。

因此,该过程很简单。您的脚本将一一解析文档并将结果存储在图形数据库中,供您以后使用。

于 2013-10-10T15:12:40.320 回答