download - 提取维基媒体浏览量统计数据

Question

维基百科以每小时文本文件的形式提供他们所有的页面浏览量。（例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/）

对于一个项目，需要提取 2014 年的关键字及其相关页面浏览量。但是看到一个文件（代表 1 小时，因此总共 24*365 个文件）约为 80MB。手动执行这可能是一项艰巨的任务。

我的问题： 1. 有没有办法自动下载文件？（文件结构正确，这可能会有所帮助）

score 1 · Accepted Answer

下载？当然，这很容易：

wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/

递归 wget 做到了。请注意，这些文件现在已弃用；您可能想改用http://dumps.wikimedia.org/other/pagecounts-all-sites/。

score 0 · Accepted Answer

我参与了这个项目：https ://github.com/idio/wikiviews ，你可以这样称呼它python wikiviews 2 2015，它将下载 2015 年 2 月的所有文件，并将它们加入一个文件中。

2 回答 2