问题标签 [bzip2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
6946 浏览

python - 如何保护自己免受 gzip 或 bzip2 炸弹的伤害?

这与有关 zip 炸弹的问题有关,但要考虑 gzip 或 bzip2 压缩,例如接受.tar.gz文件的 Web 服务。

Python 提供了一个方便的tarfile 模块,使用起来很方便,但似乎没有提供针对 zipbombs 的保护。

在使用 tarfile 模块的 python 代码中,检测 zip 炸弹最优雅的方法是什么,最好不要从 tarfile 模块复制太多逻辑(例如透明解压缩支持)?

而且,只是为了让它不那么简单:不涉及真正的文件;输入是一个类似文件的对象(由 Web 框架提供,代表用户上传的文件)。

0 投票
2 回答
3775 浏览

c# - 在 C# 中将 .bz2 流解压缩到文件

我在尝试使用 SharpZipLib 库中的 .bz2 内容时遇到了真正的麻烦,而且我无法在其他地方找到任何帮助。

任何帮助或建议将不胜感激,如果有人能指出我可以从中学习的现有解决方案,那就太棒了!

以下是我正在尝试做的事情,但显然它不起作用。目前我遇到的问题是标记线上未处理“EndOfStreamException”。代码有点乱,我以前从来没有尝试过这样的事情......

正如您可能知道的那样,我是在解压缩之前从网上下载它的,但我很确定这部分代码可以正常工作。

0 投票
2 回答
3938 浏览

hadoop - 在 Hadoop 中读取的 BZip2 文件

我听说我们可以使用多个映射器在 Hadoop 中并行读取一个 bzip2 文件的不同部分,以提高性能。但我搜索后找不到相关样本。感谢是否有人能指出我相关的代码片段。谢谢。

顺便说一句:gzip 是否具有相同的功能(多个映射器并行处理一个 gzip 文件的不同部分)。

0 投票
3 回答
2427 浏览

java - 并行 BZip2 压缩

我正在使用Apache Commons Compress for Java 将多个日志文件压缩到一个存档 tar.bz2中。

但是,压缩需要很长时间(> 12 小时),因为我每天压缩大约 20GB 的文件。

由于这个库压缩文件单线程,我想知道是否有办法做到这一点多线程。

我找到了很多解决方案(命令行 pbzip2 或一些 C++ 库),但我为 java 找到的只是这篇博文:

https://plus.google.com/117421466255362255970/posts/3jfKVu325zh

看来我不能在我的 Java 应用程序中使用它。

外面有什么吗?你会推荐什么?还是有另一种更快的解决方案,具有类似的压缩率,例如 bzip2 ?

0 投票
3 回答
113 浏览

linux - 在解压缩文件时删除文件已解压缩部分的方法?

我想知道是否有一种方法可以在文件解压缩时删除文件的已解压缩部分。我有压缩文件的外部备份,所以我不担心丢失数据。该文件是bz2。我希望这样做,因为驱动器上只有 50 GB 可用空间,压缩文件为 33 GB。如果我在解压时无法删除文件的某些部分,那么解压后的文件将没有足够的空间。

我可以做其他事情来解决这个问题,但我很想知道我上面提到的是否可行。

0 投票
2 回答
818 浏览

hadoop - 如何使用 bzip2 输入格式增加 MapReduce 的地图任务

我开发了 mr,它可以正确处理运行多个地图任务的文本文件,但我需要在档案上运行作业。我的选择是 bzip2 存档。有了这样的档案,我的工作只需要一个地图任务。

有谁知道,我怎样才能增加地图任务?

Hadoop版本:Hadoop 0.20.2-cdh3u5

我尝试使用不同的参数编辑 mapred-site.xml,但没有成功。

0 投票
2 回答
1032 浏览

gcc - 在 Ubuntu 12.04LTS 上安装 CASAVA 错误

我正在尝试在 Ubuntu 12.04 LTS 上安装 CASAVA Bcl2Fastq 1.8.3(为 CentOS 开发)。但是,我收到一条错误消息“不支持 gzip 压缩”并且安装失败。幸运的是,我找到了解决这个问题的方法:

但现在我收到另一个类似的错误“不支持 bzip2 压缩”。我想知道我是否可以做类似的事情来解决这个错误?

0 投票
2 回答
2551 浏览

node.js - 使用 Node.js 提取 .bz2 管道?

我想用 tar.gz 和 node.js 提取.tar.bz2,如下所示:

“zlib.createGunzip()”部分应替换为 bz2-deflator。有谁知道这个问题的工作包?

谢谢

0 投票
1 回答
511 浏览

hadoop - 两个连接的 bz2 文件和一个由两个连接的文件组成的 bz2 文件有什么区别?

如果我有两个文本文件,一个两个,有什么区别:

bz2 一二 -c >out.bz2

...和...

猫一二 | bzip2 -c >out.bz2

?

具体来说,我正在使用pbzip2生成 bz2 文件,将它们放在 HDFS 上,然后从 pig 中读取它们,我正在点击MAPREDUCE-477。我无法从版本 0.20 升级我的 hadoop 集群,使用非并行 bz2 实现太慢,我想使用非块压缩算法。

有什么方法可以将连接的 bz2 文件转换为非连接的文件?甚至,我将如何修改 pbzip2 以便它生成非连接的 bz2 文件?

谢谢 -

0 投票
4 回答
26173 浏览

hadoop - Hadoop 输入的最佳可拆分压缩 = bz2?

我们意识到为 Hadoop 处理以 GZip 格式归档文件并不是一个好主意,这有点太晚了。GZip 不可拆分,作为参考,以下是我不会重复的问题:

我的问题是:BZip2 是允许 Hadoop 并行处理单个存档文件的最佳存档压缩吗?Gzip 肯定不行,而且从我的阅读来看 LZO 有一些问题。