7z 存档器说这个文件有一个数据块,用 LZMA 算法压缩。
什么是 7z / xz 命令来查找它是否是单个压缩块?与多个线程一起使用时,7z 会创建多块(多流)存档吗?
原始文件非常大(999gb xml)
好消息:wikipedia 转储为多流档案(至少对 enwiki 而言):http ://dumps.wikimedia.org/enwiki/
例如,最近的转储http://dumps.wikimedia.org/enwiki/20140502/具有多流 bzip2(具有单独的索引“offset:export_article_id:article_name”),并且 7z 转储存储在许多 sub-GB 档案中每个档案约 3k (?) 篇文章:
多个 bz2 流中的文章、模板、媒体/文件描述和主要元页面,每个流 100 页
enwiki-20140502-pages-articles-multistream.xml.bz2 10.8 GB
enwiki-20140502-pages-articles-multistream-index.txt.bz2 150.3 MB
具有完整编辑历史记录的所有页面 (.7z)
enwiki-20140502-pages-meta-history1.xml-p000000010p000003263.7z 213.3 MB
enwiki-20140502-pages-meta-history1.xml-p000003264p000005405.7z 194.5 MB
enwiki-20140502-pages-meta-history1.xml-p000005406p000008209.7z 216.1 MB
enwiki-20140502-pages-meta-history1.xml-p000008210p000010000.7z 158.3 MB
enwiki-20140502-pages-meta-history2.xml-p000010001p000012717.7z 211.7 MB
.....
enwiki-20140502-pages-meta-history27.xml-p041211418p042648840.7z 808.6 MB
我认为,即使对于 7z 转储,我们也可以使用 bzip2 索引来估计文章 id,然后我们只需要具有正确范围的 7z 存档(..p first_id p last_id .7z)。stub-meta-history.xml
也可能有帮助。
转储常见问题解答:http:
//meta.wikimedia.org/wiki/Data_dumps/FAQ