问题标签 [bz2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

96 问题

0 投票

1 回答

322 浏览

python - python压缩4Gb bz2 EOFError：已找到流的结尾嵌套子文件夹

我正在尝试使用 python 从压缩文件 bz2 中读取特定文件。

但最后我得到了错误：

我还尝试通过 'tar.list()' 列出 tar 中的文件，然后再次...

我使用 tar 命令列出了存档中的文件。结果如下：

我认为这是因为存档有子文件夹，并且由于某种原因 python 库在处理子文件夹提取时存在问题？

我也尝试手动打开 tar 文件，我没有问题，所以我认为文件没有损坏。任何帮助表示赞赏。

2018-09-11T17:41:19.697

0 投票

3 回答

1700 浏览

python - 在python中将多个文件压缩成一个bz2文件

我需要在 python 中将多个文件压缩成一个 bz2 文件。我试图找到一种方法，但我找不到答案。可能吗？

python bz2

2018-10-04T12:40:42.270

0 投票

1 回答

478 浏览

google-cloud-dataflow - Google Dataflow 只为大型 .bz2 文件创建一个工作器

我正在尝试使用 Cloud Dataflow 处理 Wikidata json 转储。

我已经从https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.json.bz2下载了文件并将其托管到 GS 存储桶中。这是一个包含 json dicts 列表（每行一个）的大 (50G) .bz2 文件。

我知道 apache_beam.io.ReadFromText 可以处理 .bz2 （我在玩具数据集上测试过）并且 .bz2 是可拆分的。因此，我希望创建多个工作人员，这些工作人员将在该唯一文件的不同块上并行工作（我不完全清楚块是否/如何解决。

最终，我想对每一行（每个 json dict）进行一些分析，但作为摄取测试，我只是使用项目的 wordcount.py：

在启动时，自动缩放会迅速将工作人员的数量增加 1->6，但只有一名工作人员可以做任何工作，然后几分钟后自动缩放会回缩 6->1（jobid：2018-10-11_00_45_54-9419516948329946918）

如果我禁用自动缩放并明确设置工作人员的数量，那么除了一个之外，所有工作人员都保持空闲状态。

可以在这种输入上实现并行性吗？非常感谢您的帮助。

google-cloud-dataflow apache-beam bzip2 bz2

2018-10-11T08:16:26.330

0 投票

1 回答

67 浏览

anaconda - 查询 anaconda 包的目标平台

我想知道 ananconda .tar.bz2 包的目标平台。有没有办法在不爆炸包装的情况下得到它？

anaconda conda bz2

2018-11-15T12:22:21.783

0 投票

1 回答

108 浏览

c - Find invalid bz2 file preferable using C/C++

I have around 200 thousand bz2 files in which only one 1 valid. The size of each bz2 file is less than 200 bytes. I need to find the valid one. The command line bz2 utility is taking too much time.

Is there minimal check using file bytes by which I can find invalid bz2 and ignore further processing. I want to do in C/C++ as it would be way faster than shell scripts.

c bz2

2018-11-24T15:44:43.583

0 投票

1 回答

2949 浏览

python - EOFError：在解压缩 bz2 文件中检测到逻辑流结束之前压缩文件结束

当我尝试解压缩 wikipedia 转储以使用其 .xml 文件时出现此错误。我该如何解决？

错误：

python bz2

2018-12-03T20:19:33.500

0 投票

0 回答

430 浏览

python - Anaconda 在挂起将 Spyder 安装到新环境后失败

尝试将 Spyder 安装到新环境后，我在使用 (Ana)conda 时遇到了重大问题！我用 . 创建了一个新环境conda create -n py37 -c anaconda python=3.7，但是当我尝试将 Spyder 安装到此环境时，Anaconda 挂起。

根据How to run Spyder with Python 3.7 with Anaconda，现在应该可以了。
关闭 Anaconda 后出现以下问题：

Anaconda-Navigator 无法启动
如果我尝试使用 Anaconda Prompt 更新或安装软件包，我会收到以下错误：
/li>
如果我尝试跑步，conda info --envs我会得到：
/li>

对我来说，似乎有些依赖完全搞砸了！
我正在使用 Windows 7。

python python-3.x anaconda spyder bz2

2019-01-10T11:01:40.103

0 投票

1 回答

426 浏览

tar - tar.bz2 无法统计：没有这样的文件或目录

我正在使用以下命令压缩 60G 的银行备份，但日志会通知以下消息。会是什么？

命令：

错误：

tar bz2

2019-01-22T04:01:32.620

0 投票

0 回答

57 浏览

python-3.x - python：bz2“增量”和“一次性”（去）压缩与“常规”方法有何不同？

我有一系列目录，每个目录大约 38 MB 在磁盘上，我不需要腌制 Python 3.6 Windows 10 系统。当我运行以下代码时，生成的 .pickle 文件非常大，每个约 158 MB：

这是正常的吗？pickle 是原始数据文件大小的 4 倍。

然后我尝试bz2使用pickle，生成的 .pkl 文件要小得多，约为 18 MB：

解压和解压：

我对改进感到满意，但如果我能找到它，我会采取更好的压缩方式。

问题：

我注意到还有一种bz2.open()方法。到目前为止bz2.BZ2File()似乎工作，但我什么时候想使用open()呢？
bz2.BZ2File()使用“常规”（解）压缩和“增量”（bz2.BZ2Compressor()/ bz2.BZ2Decompressor）和“单次”（bz2.compress/ ）（解）压缩有什么区别 bz2.decompress？我已阅读https://docs.python.org/3.6/library/bz2.html上的文档，但它没有解释这些术语或在什么情况下它们可能更可取。

python-3.x compression pickle bz2

2019-01-29T00:59:37.650

0 投票

3 回答

1483 浏览

python - 如何获得解压大型 bz2 文件所需的时间？

我需要使用 Python 处理大型 bz2 文件（~6G），通过逐行解压缩，使用BZ2File.readline(). 问题是我想知道处理整个文件需要多少时间。

我做了很多搜索，试图获取解压缩文件的实际大小，以便我可以知道即时处理的百分比，从而知道剩余时间，而发现似乎不可能知道解压缩文件的大小无需先解压缩（https://stackoverflow.com/a/12647847/7876675）。

除了解压缩文件需要大量内存之外，解压缩本身也需要很多时间。那么，任何人都可以帮助我即时获得剩余的处理时间吗？

python compression bz2

2019-02-08T16:50:08.243

1 2 3 4 5 6 7 8 9 10

问题标签 [bz2]

Reference