问题标签 [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
496 浏览

hadoop - spark如何处理hdfs压缩文件以及如何选择hdfs压缩编解码器(可拆分或不可拆分)

背景:

我们有一个项目使用 spark 处理一些 log/csv 文件,每个文件的大小都非常大,例如 20GB。

所以我们需要压缩log/csv文件

例子

HDFS 块大小:128M,我们有一个 1GB 的日志文件。

如果文件未压缩,HDFS 中将有 8 个块

rddFlat.partition.length 将为 8(因为将有 8 个输入拆分)

如果使用bzip2,假设压缩后压缩后大小为256MB(实际上bz压缩率很高),会有2个块

rddCompress.partition.length 将为 2(对吗?)

如果我们有以下变换和动作

我的疑惑

(压缩文件的HDFS块、输入分割和spark分区的关系,可分割和不可分割压缩)

  1. spark如何处理压缩分区?

    spark的每个执行者将他们分配的分区解压缩到spark块中并对块进行转换和操作?

  2. 如果我们删除解压缩时间,哪个更慢?

    cnCompress 计算会更慢吗?因为只有 2 个分区,只有两个节点会进行转换和操作。cnFlat 有 8 个分区。

  3. 在选择压缩编解码器(可拆分或不可拆分)时,我们是否需要考虑压缩后的大小?

    压缩后,如果压缩后的大小小于或等于 HDFS 块大小。在splittable方面,我们选择splittable还是不splittable压缩编解码器没有意义,因为spark RDD只会有一个分区(我的意思是只有一个worker会处理rdd)?

0 投票
0 回答
11425 浏览

python - Python3.6.3,ModuleNotFoundError:没有名为“_bz2”的模块

在 Linux 中,CentOS

我下载 bzip tar 文件(bzip2-1.0.6.tar.gz)和

然后我重新编译 Python-3.6.3

然后我import bz2进去/home/gt/Py36/bin/python3并得到

然后我

然后我得到

什么时候import bz2

0 投票
2 回答
469 浏览

bash - 如何获取所有压缩文件的前 10 行?

我有一堆M文件,我想从中提取第一N行(从每个文件中)。我的文件被压缩在 BZ2 中。否则,做head -10 *就够了。

例如:假设我想从我的所有文件(A.txt、B.txt、C.txt 下面)中提取前 2 行。

一个.txt:

B.txt:

C.txt:

预期的结果应该是这样的(即包含这些行,而不是强制按顺序排列):

我尝试了以下方法:

  • bzcat * | head -10给了我整个解压缩文件的前 10 行,即没有足够的输出。我只会1A 2A在这里。
  • bzcat | head -10 *给我每个压缩文件的前 10 行,即无法读取。

有人有想法吗?

0 投票
1 回答
1292 浏览

compression - bz2 文件解压失败并出现错误

到目前为止,我尝试使用 mac 命令行工具解压缩bzip2 -dc,它会抛出此错误:“huff+mtf 数据完整性 (CRC) 数据错误”,我什至尝试使用bzip2recover命令恢复文件,它将我的 4 mb 文件转换为 6000带有成功消息的小 bz2文件,但是所有这些文件的解压缩都失败并出现相同的错误

使用 python bz2 包:这会引发错误“IO 错误无效数据流”

使用 Apache nifi,它说 Java.io.exception 意外结束流。

使用此链“帕洛阿尔托块”->“pubsub”->“GCS 存储桶”将数据馈送到 GSC 存储桶。

所有这些都表明数据可能已损坏,但我不确定(不能简单地责怪 Pub Sub)。有没有人遇到过类似的情况?任何形式的帮助将不胜感激。

您可以在此处找到示例 bz2 文件

0 投票
2 回答
1932 浏览

python - TypeError: open() 得到了一个意外的关键字参数“缓冲”

我正在用 python 编写一个聊天机器人程序,当我运行我的代码时,出现以下错误。

在网上找不到任何有关错误的信息。我所看到的可能是它是一个错误,我应该将它报告给 python。当前运行python3.5.3。这是获取错误的代码部分。

0 投票
1 回答
515 浏览

python - 用python os walk解压30000个子文件夹中的bz2文件?

我有 30,000 个文件夹,每个文件夹包含 5 个 bz2 的 json 数据文件。

我正在尝试使用 os.walk() 循环遍历文件路径并解压缩每个压缩文件并保存在原始目录中。

运行代码时出现以下错误。

我已经读到使用解压器方法在 mac 上运行代码可能会出现问题,或者我是否遗漏了其他东西?

0 投票
1 回答
417 浏览

python - 更快地重复使用 bz2.BZ2File 进行酸洗

我反复酸洗多个对象,但不是连续酸洗。但事实证明,腌制的输出文件太大(每个大约 256MB)。

所以我尝试了,bz2.BZ2File而不是open,每个文件变成了 1.3MB。(是的,哇。)问题是它需要太长时间(比如 95 秒腌制一个物体),我想加快速度。

每个对象都是一个字典,并且它们中的大多数具有相似的结构(或层次结构,如果更好地描述它的话:几乎相同的一组键,并且对应于每个键的每个值通常都有一些特定的结构,等等)。许多字典值都是 numpy 数组,我认为那里会出现很多零。

你能给我一些建议让它更快吗?

谢谢!

0 投票
2 回答
2099 浏览

python - 如何从任意 BZ2 流中读取 CSV 行?

bz2模块提供了open()一种可以调用的标准方法readline()。但是,我的情况是我有一个流(指向大量数据),我想动态解压缩行。我目前的实现如下,但我知道必须有更简洁的方法来做到这一点。

想法?

0 投票
3 回答
4892 浏览

python - 如何使用 Python 解析 WIkidata JSON (.bz2) 文件?

我想使用 Wikidata 查看实体和关系。我下载了 Wikidata JSON 转储(来自此处的.bz2 文件,大小约为 18 GB)。

但是,我无法打开文件,它对我的​​电脑来说太大了。

有没有办法在不提取完整的 .bz2 文件的情况下查看文件。特别是使用Python时,我知道有一个 PHP 转储阅读器(此处),但我无法使用它。

0 投票
1 回答
141 浏览

macos - 无法提取 bz2 reddit 月度评论文件 Mac

我无法提取在我的计算机上redit以格式下载的每月评论文件。bz2

例如,当我RC_2005-12.bz2使用 Unarchiver 解压时,有一个RC_2005-12没有任何扩展名的文件被解压。我无法打开该RC_2005-12文件。

我正在使用带有 Sierra 的 Mac。我正在从这里下载文件http://files.pushshift.io/reddit/comments/

任何帮助表示赞赏。谢谢