3

维基百科以每小时文本文件的形式提供他们所有的页面浏览量。(例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/

对于一个项目,需要提取 2014 年的关键字及其相关页面浏览量。但是看到一个文件(代表 1 小时,因此总共 24*365 个文件)约为 80MB。手动执行这可能是一项艰巨的任务。

我的问题: 1. 有没有办法自动下载文件?(文件结构正确,这可能会有所帮助)

4

2 回答 2

1

下载?当然,这很容易:

wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/

递归 wget 做到了。请注意,这些文件现在已弃用;您可能想改用http://dumps.wikimedia.org/other/pagecounts-all-sites/

于 2015-07-25T13:50:09.607 回答
0

我参与了这个项目:https ://github.com/idio/wikiviews ,你可以这样称呼它python wikiviews 2 2015,它将下载 2015 年 2 月的所有文件,并将它们加入一个文件中。

于 2015-09-10T18:30:17.553 回答