1

我想用每个维基百科文章 id 和它的类别 id(最一般的类别)制作一个 mysql 数据库。我看到维基百科给出了一个完整的转储,还有一些其他的,比如类别之间的链接。我还看到有 mediawiki 但我无法找到要发送的正确查询。

但尽管如此,我还是找不到如何用文章 ID 和类别 ID 转储一个大文件。我该怎么做?我应该期待多少数据?

4

2 回答 2

3

维基百科提供其大部分数据的转储。您想要的是categorylinks.sql,其中包含每个文章 ID 的类别名称列表(类别没有 ID)。您也很可能需要page.sql,其中包含从文章 ID 到其标题的映射。

要使用转储,您可以将它们导入本地 MySQL 数据库,或者您可以使用直接解析转储的库,例如我为 .Net 编写的库。

但是每篇文章通常分为几个类别,并且没有主要类别或类似内容的概念。因此,如果您真的希望每篇文章只需要一个类别,您将不得不自己弄清楚如何做到这一点。

于 2013-05-13T18:55:54.853 回答
-2

使用维基百科 API:http ://en.wikipedia.org/w/api.php

文章 id=736 和类别:http ://en.wikipedia.org/w/api.php?action=query&prop=categories&titles=Albert%20Einstein

于 2013-05-13T18:17:58.870 回答