“bz2”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

496 浏览

hadoop - spark如何处理hdfs压缩文件以及如何选择hdfs压缩编解码器（可拆分或不可拆分）

背景：

我们有一个项目使用 spark 处理一些 log/csv 文件，每个文件的大小都非常大，例如 20GB。

所以我们需要压缩log/csv文件

例子

HDFS 块大小：128M，我们有一个 1GB 的日志文件。

如果文件未压缩，HDFS 中将有 8 个块

rddFlat.partition.length 将为 8（因为将有 8 个输入拆分）

如果使用bzip2，假设压缩后压缩后大小为256MB（实际上bz压缩率很高），会有2个块

rddCompress.partition.length 将为 2（对吗？）

如果我们有以下变换和动作

我的疑惑

（压缩文件的HDFS块、输入分割和spark分区的关系，可分割和不可分割压缩）

spark如何处理压缩分区？

spark的每个执行者将他们分配的分区解压缩到spark块中并对块进行转换和操作？
如果我们删除解压缩时间，哪个更慢？

cnCompress 计算会更慢吗？因为只有 2 个分区，只有两个节点会进行转换和操作。cnFlat 有 8 个分区。
在选择压缩编解码器（可拆分或不可拆分）时，我们是否需要考虑压缩后的大小？

压缩后，如果压缩后的大小小于或等于 HDFS 块大小。在splittable方面，我们选择splittable还是不splittable压缩编解码器没有意义，因为spark RDD只会有一个分区（我的意思是只有一个worker会处理rdd）？

2017-10-18T08:30:26.907

0 投票

0 回答

11425 浏览

python - Python3.6.3，ModuleNotFoundError：没有名为“_bz2”的模块

在 Linux 中，CentOS

我下载 bzip tar 文件（bzip2-1.0.6.tar.gz）和

然后我重新编译 Python-3.6.3

然后我import bz2进去/home/gt/Py36/bin/python3并得到

然后我

然后我得到

什么时候import bz2

python python-3.x python-3.6 bzip2 bz2

2017-10-30T01:53:19.323

0 投票

2 回答

469 浏览

bash - 如何获取所有压缩文件的前 10 行？

我有一堆M文件，我想从中提取第一N行（从每个文件中）。我的文件被压缩在 BZ2 中。否则，做head -10 *就够了。

例如：假设我想从我的所有文件（A.txt、B.txt、C.txt 下面）中提取前 2 行。

一个.txt：

B.txt：

C.txt：

预期的结果应该是这样的（即包含这些行，而不是强制按顺序排列）：

我尝试了以下方法：

bzcat * | head -10给了我整个解压缩文件的前 10 行，即没有足够的输出。我只会1A 2A在这里。
bzcat | head -10 *给我每个压缩文件的前 10 行，即无法读取。

有人有想法吗？

bash unix zsh bz2

2017-11-10T15:19:35.183

0 投票

1 回答

1292 浏览

compression - bz2 文件解压失败并出现错误

到目前为止，我尝试使用 mac 命令行工具解压缩bzip2 -dc，它会抛出此错误：“huff+mtf 数据完整性 (CRC) 数据错误”，我什至尝试使用bzip2recover命令恢复文件，它将我的 4 mb 文件转换为 6000带有成功消息的小 bz2文件，但是所有这些文件的解压缩都失败并出现相同的错误

使用 python bz2 包：这会引发错误“IO 错误无效数据流”

使用 Apache nifi，它说 Java.io.exception 意外结束流。

使用此链“帕洛阿尔托块”->“pubsub”->“GCS 存储桶”将数据馈送到 GSC 存储桶。

所有这些都表明数据可能已损坏，但我不确定（不能简单地责怪 Pub Sub）。有没有人遇到过类似的情况？任何形式的帮助将不胜感激。

您可以在此处找到示例 bz2 文件

compression apache-nifi bz2

2017-11-15T07:58:04.643

0 投票

2 回答

1932 浏览

python - TypeError: open() 得到了一个意外的关键字参数“缓冲”

我正在用 python 编写一个聊天机器人程序，当我运行我的代码时，出现以下错误。

在网上找不到任何有关错误的信息。我所看到的可能是它是一个错误，我应该将它报告给 python。当前运行python3.5.3。这是获取错误的代码部分。

python python-3.x bz2

2017-12-01T03:08:32.520

0 投票

1 回答

515 浏览

python - 用python os walk解压30000个子文件夹中的bz2文件？

我有 30,000 个文件夹，每个文件夹包含 5 个 bz2 的 json 数据文件。

我正在尝试使用 os.walk() 循环遍历文件路径并解压缩每个压缩文件并保存在原始目录中。

运行代码时出现以下错误。

我已经读到使用解压器方法在 mac 上运行代码可能会出现问题，或者我是否遗漏了其他东西？

python compression os.walk bz2

2017-12-07T22:57:24.407

0 投票

1 回答

417 浏览

python - 更快地重复使用 bz2.BZ2File 进行酸洗

我反复酸洗多个对象，但不是连续酸洗。但事实证明，腌制的输出文件太大（每个大约 256MB）。

所以我尝试了，bz2.BZ2File而不是open，每个文件变成了 1.3MB。（是的，哇。）问题是它需要太长时间（比如 95 秒腌制一个物体），我想加快速度。

每个对象都是一个字典，并且它们中的大多数具有相似的结构（或层次结构，如果更好地描述它的话：几乎相同的一组键，并且对应于每个键的每个值通常都有一些特定的结构，等等）。许多字典值都是 numpy 数组，我认为那里会出现很多零。

你能给我一些建议让它更快吗？

谢谢！

python python-2.7 numpy pickle bz2

2017-12-12T15:49:29.373

0 投票

2 回答

2099 浏览

python - 如何从任意 BZ2 流中读取 CSV 行？

该bz2模块提供了open()一种可以调用的标准方法readline()。但是，我的情况是我有一个流（指向大量数据），我想动态解压缩行。我目前的实现如下，但我知道必须有更简洁的方法来做到这一点。

想法？

python python-2.7 csv bz2

2017-12-12T17:45:26.360

0 投票

3 回答

4892 浏览

python - 如何使用 Python 解析 WIkidata JSON (.bz2) 文件？

我想使用 Wikidata 查看实体和关系。我下载了 Wikidata JSON 转储（来自此处的.bz2 文件，大小约为 18 GB）。

但是，我无法打开文件，它对我的电脑来说太大了。

有没有办法在不提取完整的 .bz2 文件的情况下查看文件。特别是使用Python时，我知道有一个 PHP 转储阅读器（此处），但我无法使用它。

python json wikidata bz2

2018-01-03T13:39:02.570

0 投票

1 回答

141 浏览

macos - 无法提取 bz2 reddit 月度评论文件 Mac

我无法提取在我的计算机上redit以格式下载的每月评论文件。bz2

例如，当我RC_2005-12.bz2使用 Unarchiver 解压时，有一个RC_2005-12没有任何扩展名的文件被解压。我无法打开该RC_2005-12文件。

我正在使用带有 Sierra 的 Mac。我正在从这里下载文件http://files.pushshift.io/reddit/comments/

任何帮助表示赞赏。谢谢

macos bz2

2018-02-04T18:54:06.733

问题标签 [bz2]

背景：

例子

我的疑惑

Reference