问题标签 [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
322 浏览

python - python压缩4Gb bz2 EOFError:已找到流的结尾嵌套子文件夹

我正在尝试使用 python 从压缩文件 bz2 中读取特定文件。

但最后我得到了错误:

我还尝试通过 'tar.list()' 列出 tar 中的文件,然后再次...

我使用 tar 命令列出了存档中的文件。结果如下:

我认为这是因为存档有子文件夹,并且由于某种原因 python 库在处理子文件夹提取时存在问题?

我也尝试手动打开 tar 文件,我没有问题,所以我认为文件没有损坏。任何帮助表示赞赏。

0 投票
3 回答
1700 浏览

python - 在python中将多个文件压缩成一个bz2文件

我需要在 python 中将多个文件压缩成一个 bz2 文件。我试图找到一种方法,但我找不到答案。可能吗?

0 投票
1 回答
478 浏览

google-cloud-dataflow - Google Dataflow 只为大型 .bz2 文件创建一个工作器

我正在尝试使用 Cloud Dataflow 处理 Wikidata json 转储。

我已经从https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.json.bz2下载了文件并将其托管到 GS 存储桶中。这是一个包含 json dicts 列表(每行一个)的大 (50G) .bz2 文件。

我知道 apache_beam.io.ReadFromText 可以处理 .bz2 (我在玩具数据集上测试过)并且 .bz2 是可拆分的。因此,我希望创建多个工作人员,这些工作人员将在该唯一文件的不同块上并行工作(我不完全清楚块是否/如何解决。

最终,我想对每一行(每个 json dict)进行一些分析,但作为摄取测试,我只是使用项目的 wordcount.py:

在启动时,自动缩放会迅速将工作人员的数量增加 1->6,但只有一名工作人员可以做任何工作,然后几分钟后自动缩放会回缩 6->1(jobid:2018-10-11_00_45_54-9419516948329946918)

如果我禁用自动缩放并明确设置工作人员的数量,那么除了一个之外,所有工作人员都保持空闲状态。

可以在这种输入上实现并行性吗?非常感谢您的帮助。

0 投票
1 回答
67 浏览

anaconda - 查询 anaconda 包的目标平台

我想知道 ananconda .tar.bz2 包的目标平台。有没有办法在不爆炸包装的情况下得到它?

0 投票
1 回答
108 浏览

c - Find invalid bz2 file preferable using C/C++

I have around 200 thousand bz2 files in which only one 1 valid. The size of each bz2 file is less than 200 bytes. I need to find the valid one. The command line bz2 utility is taking too much time.

Is there minimal check using file bytes by which I can find invalid bz2 and ignore further processing. I want to do in C/C++ as it would be way faster than shell scripts.

0 投票
1 回答
2949 浏览

python - EOFError:在解压缩 bz2 文件中检测到逻辑流结束之前压缩文件结束

当我尝试解压缩 wikipedia 转储以使用其 .xml 文件时出现此错误。我该如何解决?

错误:

0 投票
0 回答
430 浏览

python - Anaconda 在挂起将 Spyder 安装到新环境后失败

尝试将 Spyder 安装到新环境后,我在使用 (Ana)conda 时遇到了重大问题!我用 . 创建了一个新环境conda create -n py37 -c anaconda python=3.7,但是当我尝试将 Spyder 安装到此环境时,Anaconda 挂起。

根据How to run Spyder with Python 3.7 with Anaconda,现在应该可以了。
关闭 Anaconda 后出现以下问题:

  • Anaconda-Navigator 无法启动
  • 如果我尝试使用 Anaconda Prompt 更新或安装软件包,我会收到以下错误:

    /li>
  • 如果我尝试跑步,conda info --envs我会得到:

    /li>

对我来说,似乎有些依赖完全搞砸了!
我正在使用 Windows 7。

0 投票
1 回答
426 浏览

tar - tar.bz2 无法统计:没有这样的文件或目录

我正在使用以下命令压缩 60G 的银行备份,但日志会通知以下消息。会是什么?

命令:

错误:

0 投票
0 回答
57 浏览

python-3.x - python:bz2“增量”和“一次性”(去)压缩与“常规”方法有何不同?

我有一系列目录,每个目录大约 38 MB 在磁盘上,我不需要腌制 Python 3.6 Windows 10 系统。当我运行以下代码时,生成的 .pickle 文件非常大,每个约 158 MB:

这是正常的吗?pickle 是原始数据文件大小的 4 倍。

然后我尝试bz2使用pickle,生成的 .pkl 文件要小得多,约为 18 MB:

解压和解压:

我对改进感到满意,但如果我能找到它,我会采取更好的压缩方式。

问题

  1. 我注意到还有一种bz2.open()方法。到目前为止bz2.BZ2File()似乎工作,但我什么时候想使用open()呢?
  2. bz2.BZ2File()使用“常规”(解)压缩和“增量”(bz2.BZ2Compressor()/ bz2.BZ2Decompressor)和“单次”(bz2.compress/ )(解)压缩有什么区别 bz2.decompress?我已阅读https://docs.python.org/3.6/library/bz2.html上的文档,但它没有解释这些术语或在什么情况下它们可能更可取。
0 投票
3 回答
1483 浏览

python - 如何获得解压大型 bz2 文件所需的时间?

我需要使用 Python 处理大型 bz2 文件(~6G),通过逐行解压缩,使用BZ2File.readline(). 问题是我想知道处理整个文件需要多少时间。

我做了很多搜索,试图获取解压缩文件的实际大小,以便我可以知道即时处理的百分比,从而知道剩余时间,而发现似乎不可能知道解压缩文件的大小无需先解压缩(https://stackoverflow.com/a/12647847/7876675)。

除了解压缩文件需要大量内存之外,解压缩本身也需要很多时间。那么,任何人都可以帮助我即时获得剩余的处理时间吗?