问题标签 [bz2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - spark如何处理hdfs压缩文件以及如何选择hdfs压缩编解码器(可拆分或不可拆分)
背景:
我们有一个项目使用 spark 处理一些 log/csv 文件,每个文件的大小都非常大,例如 20GB。
所以我们需要压缩log/csv文件
例子
HDFS 块大小:128M,我们有一个 1GB 的日志文件。
如果文件未压缩,HDFS 中将有 8 个块
rddFlat.partition.length 将为 8(因为将有 8 个输入拆分)
如果使用bzip2,假设压缩后压缩后大小为256MB(实际上bz压缩率很高),会有2个块
rddCompress.partition.length 将为 2(对吗?)
如果我们有以下变换和动作
我的疑惑
(压缩文件的HDFS块、输入分割和spark分区的关系,可分割和不可分割压缩)
spark如何处理压缩分区?
spark的每个执行者将他们分配的分区解压缩到spark块中并对块进行转换和操作?
如果我们删除解压缩时间,哪个更慢?
cnCompress 计算会更慢吗?因为只有 2 个分区,只有两个节点会进行转换和操作。cnFlat 有 8 个分区。
在选择压缩编解码器(可拆分或不可拆分)时,我们是否需要考虑压缩后的大小?
压缩后,如果压缩后的大小小于或等于 HDFS 块大小。在splittable方面,我们选择splittable还是不splittable压缩编解码器没有意义,因为spark RDD只会有一个分区(我的意思是只有一个worker会处理rdd)?
python - Python3.6.3,ModuleNotFoundError:没有名为“_bz2”的模块
在 Linux 中,CentOS
我下载 bzip tar 文件(bzip2-1.0.6.tar.gz
)和
然后我重新编译 Python-3.6.3
然后我import bz2
进去/home/gt/Py36/bin/python3
并得到
然后我
然后我得到
什么时候import bz2
bash - 如何获取所有压缩文件的前 10 行?
我有一堆M
文件,我想从中提取第一N
行(从每个文件中)。我的文件被压缩在 BZ2 中。否则,做head -10 *
就够了。
例如:假设我想从我的所有文件(A.txt、B.txt、C.txt 下面)中提取前 2 行。
一个.txt:
B.txt:
C.txt:
预期的结果应该是这样的(即包含这些行,而不是强制按顺序排列):
我尝试了以下方法:
bzcat * | head -10
给了我整个解压缩文件的前 10 行,即没有足够的输出。我只会1A 2A
在这里。bzcat | head -10 *
给我每个压缩文件的前 10 行,即无法读取。
有人有想法吗?
compression - bz2 文件解压失败并出现错误
到目前为止,我尝试使用 mac 命令行工具解压缩bzip2 -dc
,它会抛出此错误:“huff+mtf 数据完整性 (CRC) 数据错误”,我什至尝试使用bzip2recover
命令恢复文件,它将我的 4 mb 文件转换为 6000带有成功消息的小 bz2文件,但是所有这些文件的解压缩都失败并出现相同的错误
使用 python bz2 包:这会引发错误“IO 错误无效数据流”
使用 Apache nifi,它说 Java.io.exception 意外结束流。
使用此链“帕洛阿尔托块”->“pubsub”->“GCS 存储桶”将数据馈送到 GSC 存储桶。
所有这些都表明数据可能已损坏,但我不确定(不能简单地责怪 Pub Sub)。有没有人遇到过类似的情况?任何形式的帮助将不胜感激。
您可以在此处找到示例 bz2 文件
python - TypeError: open() 得到了一个意外的关键字参数“缓冲”
我正在用 python 编写一个聊天机器人程序,当我运行我的代码时,出现以下错误。
在网上找不到任何有关错误的信息。我所看到的可能是它是一个错误,我应该将它报告给 python。当前运行python3.5.3。这是获取错误的代码部分。
python - 用python os walk解压30000个子文件夹中的bz2文件?
我有 30,000 个文件夹,每个文件夹包含 5 个 bz2 的 json 数据文件。
我正在尝试使用 os.walk() 循环遍历文件路径并解压缩每个压缩文件并保存在原始目录中。
运行代码时出现以下错误。
我已经读到使用解压器方法在 mac 上运行代码可能会出现问题,或者我是否遗漏了其他东西?
python - 更快地重复使用 bz2.BZ2File 进行酸洗
我反复酸洗多个对象,但不是连续酸洗。但事实证明,腌制的输出文件太大(每个大约 256MB)。
所以我尝试了,bz2.BZ2File
而不是open
,每个文件变成了 1.3MB。(是的,哇。)问题是它需要太长时间(比如 95 秒腌制一个物体),我想加快速度。
每个对象都是一个字典,并且它们中的大多数具有相似的结构(或层次结构,如果更好地描述它的话:几乎相同的一组键,并且对应于每个键的每个值通常都有一些特定的结构,等等)。许多字典值都是 numpy 数组,我认为那里会出现很多零。
你能给我一些建议让它更快吗?
谢谢!
python - 如何从任意 BZ2 流中读取 CSV 行?
该bz2
模块提供了open()
一种可以调用的标准方法readline()
。但是,我的情况是我有一个流(指向大量数据),我想动态解压缩行。我目前的实现如下,但我知道必须有更简洁的方法来做到这一点。
想法?
macos - 无法提取 bz2 reddit 月度评论文件 Mac
我无法提取在我的计算机上redit
以格式下载的每月评论文件。bz2
例如,当我RC_2005-12.bz2
使用 Unarchiver 解压时,有一个RC_2005-12
没有任何扩展名的文件被解压。我无法打开该RC_2005-12
文件。
我正在使用带有 Sierra 的 Mac。我正在从这里下载文件http://files.pushshift.io/reddit/comments/
任何帮助表示赞赏。谢谢