我想用每个维基百科文章 id 和它的类别 id(最一般的类别)制作一个 mysql 数据库。我看到维基百科给出了一个完整的转储,还有一些其他的,比如类别之间的链接。我还看到有 mediawiki 但我无法找到要发送的正确查询。
但尽管如此,我还是找不到如何用文章 ID 和类别 ID 转储一个大文件。我该怎么做?我应该期待多少数据?
我想用每个维基百科文章 id 和它的类别 id(最一般的类别)制作一个 mysql 数据库。我看到维基百科给出了一个完整的转储,还有一些其他的,比如类别之间的链接。我还看到有 mediawiki 但我无法找到要发送的正确查询。
但尽管如此,我还是找不到如何用文章 ID 和类别 ID 转储一个大文件。我该怎么做?我应该期待多少数据?
维基百科提供其大部分数据的转储。您想要的是categorylinks.sql
,其中包含每个文章 ID 的类别名称列表(类别没有 ID)。您也很可能需要page.sql
,其中包含从文章 ID 到其标题的映射。
要使用转储,您可以将它们导入本地 MySQL 数据库,或者您可以使用直接解析转储的库,例如我为 .Net 编写的库。
但是每篇文章通常分为几个类别,并且没有主要类别或类似内容的概念。因此,如果您真的希望每篇文章只需要一个类别,您将不得不自己弄清楚如何做到这一点。
使用维基百科 API:http ://en.wikipedia.org/w/api.php
文章 id=736 和类别:http ://en.wikipedia.org/w/api.php?action=query&prop=categories&titles=Albert%20Einstein