6

我正在做一个项目,为此我需要知道所有维基百科的文章名称(我不需要内容)。有没有可以下载这些数据的地方。

4

2 回答 2

15

在 Wikipedia 上查看此页面- 可以选择仅下载包含文章名称的存档。这是下载页面的实际路径

编辑:

您可能会注意到非英语标题出现在包含在enwiki-latest-all-titles-in-ns0.gz. 这是因为默认情况下,大多数人在主要的英语 wiki(语言代码en)上创建内容。如果您要调查其他语言转储,您会发现有不同的文章集。

在主下载页面上阅读,有关于能够使用 Wikipedia API 在 Wikipedia 上执行某些类型的查询的参考资料,但我不确定这会解决您的问题(页面分类似乎没有提供区分“英语”内容与“英语 wiki 上的内容”的简单方法)。

于 2010-04-16T20:44:24.120 回答
0

我不知道有任何中央文章列表,但是如果您只需要大量文章而不是完整列表(请记住,任何完整列表无论如何都会过时),那么您可能可以将一些东西放在一起使用 wget 从主页递归地跟踪维基百科中的链接并存储您获得的 URL。

于 2010-04-16T20:46:16.970 回答