18

使用维基百科的转储,我想为其类别构建层次结构。我已经下载了主转储 (enwiki-latest-pages-articles) 和类别 SQL 转储 (enwiki-latest-category)。但我找不到层次结构信息。

例如,SQL 类别的转储具有每个类别的条目,但我找不到任何关于它们如何相互关联的信息。

另一个转储(latest-pages-articles)以无序的方式表示每个页面的父类别。它只是说明了所有的父母。

我已经看到了 wikiprep 的类别层次结构(http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/)......那是如何构建的?Wikiprep 列出了类别 ID,而不是其名称。有没有办法获取每个 ID 的名称?

4

2 回答 2

16

MediaWiki 中的类别层次信息存储在categorylinkstable 中,因此您将需要categorylinks转储。

您还需要page(不是pages-articles)转储页面 id 到标题的映射。

于 2013-07-02T19:06:49.060 回答
2

加载类别链接等的转储...以构建维基百科层次结构非常长(即使很有趣)。

我找到了可以带来良好结果的快速路径。我依靠维基百科重要的文章层次结构。例如,参见sensimark以获取示例使用。

于 2018-09-14T09:41:08.123 回答