维基百科以每小时文本文件的形式提供他们所有的页面浏览量。(例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)
对于一个项目,需要提取 2014 年的关键字及其相关页面浏览量。但是看到一个文件(代表 1 小时,因此总共 24*365 个文件)约为 80MB。手动执行这可能是一项艰巨的任务。
我的问题: 1. 有没有办法自动下载文件?(文件结构正确,这可能会有所帮助)
维基百科以每小时文本文件的形式提供他们所有的页面浏览量。(例如参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)
对于一个项目,需要提取 2014 年的关键字及其相关页面浏览量。但是看到一个文件(代表 1 小时,因此总共 24*365 个文件)约为 80MB。手动执行这可能是一项艰巨的任务。
我的问题: 1. 有没有办法自动下载文件?(文件结构正确,这可能会有所帮助)
下载?当然,这很容易:
wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/
递归 wget 做到了。请注意,这些文件现在已弃用;您可能想改用http://dumps.wikimedia.org/other/pagecounts-all-sites/。
我参与了这个项目:https ://github.com/idio/wikiviews
,你可以这样称呼它python wikiviews 2 2015
,它将下载 2015 年 2 月的所有文件,并将它们加入一个文件中。