2

我想得到这个列表,以便以后进行语言学研究。

API:Allpages 限制为 500 个查询。我需要它们(400万)。

也许使用 dbpedia 攻击它。

有什么诀窍吗?

4

1 回答 1

6

运行 Wikipedia 的 Wikimedia Foundation 将其所有项目的定期转储发布到http://dumps.wikimedia.org

您可以在此处浏览最新的 enwiki 转储(截至本文发布时):http: //dumps.wikimedia.org/enwiki/20130204/

您可能最感兴趣的文件是所有页面标题的列表:http: //dumps.wikimedia.org/enwiki/20130204/enwiki-20130204-all-titles-in-ns0.gz

于 2013-02-17T00:22:04.597 回答