我想得到这个列表,以便以后进行语言学研究。
API:Allpages 限制为 500 个查询。我需要它们(400万)。
也许使用 dbpedia 攻击它。
有什么诀窍吗?
运行 Wikipedia 的 Wikimedia Foundation 将其所有项目的定期转储发布到http://dumps.wikimedia.org。
您可以在此处浏览最新的 enwiki 转储(截至本文发布时):http: //dumps.wikimedia.org/enwiki/20130204/。
您可能最感兴趣的文件是所有页面标题的列表:http: //dumps.wikimedia.org/enwiki/20130204/enwiki-20130204-all-titles-in-ns0.gz。