3

我想下载所有中文维基百科数据(文本+图像),我下载了文章但我对这些媒体文件感到困惑,而且远程媒体文件非常大,它们是什么?我必须下载它们吗?

来自: http: //ftpmirror.your.org/pub/wikimedia/imagedumps/tarballs/fulls/20121104/

zhwiki-20121104-local-media-1.tar   4.1G
zhwiki-20121104-remote-media-1.tar  69.9G
zhwiki-20121104-remote-media-2.tar  71.1G
zhwiki-20121104-remote-media-3.tar  69.3G
zhwiki-20121104-remote-media-4.tar  48.9G

谢谢!

4

1 回答 1

1

我假设它们是维基共享资源中包含的媒体文件,这是文章中的大部分图像。来自https://wikitech.wikimedia.org/wiki/Dumps/media

对于每个 wiki,我们通过 /backups/imageinfo/wmfgetremoteimages.py 转储图像、图像链接和重定向表。文件被写入 dataset2 上的 /data/xmldatadumps/public/other/imageinfo/。

从上面我们然后生成每个wiki的所有远程存储(即公共)媒体的列表,对同一脚本使用不同的参数。

对于中文维基百科的所有文件来说,它并没有那么大:-)

于 2013-03-12T13:25:59.817 回答