问题标签 [bz2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - python压缩4Gb bz2 EOFError:已找到流的结尾嵌套子文件夹
我正在尝试使用 python 从压缩文件 bz2 中读取特定文件。
但最后我得到了错误:
我还尝试通过 'tar.list()' 列出 tar 中的文件,然后再次...
我使用 tar 命令列出了存档中的文件。结果如下:
我认为这是因为存档有子文件夹,并且由于某种原因 python 库在处理子文件夹提取时存在问题?
我也尝试手动打开 tar 文件,我没有问题,所以我认为文件没有损坏。任何帮助表示赞赏。
python - 在python中将多个文件压缩成一个bz2文件
我需要在 python 中将多个文件压缩成一个 bz2 文件。我试图找到一种方法,但我找不到答案。可能吗?
google-cloud-dataflow - Google Dataflow 只为大型 .bz2 文件创建一个工作器
我正在尝试使用 Cloud Dataflow 处理 Wikidata json 转储。
我已经从https://dumps.wikimedia.org/wikidatawiki/entities/latest-all.json.bz2下载了文件并将其托管到 GS 存储桶中。这是一个包含 json dicts 列表(每行一个)的大 (50G) .bz2 文件。
我知道 apache_beam.io.ReadFromText 可以处理 .bz2 (我在玩具数据集上测试过)并且 .bz2 是可拆分的。因此,我希望创建多个工作人员,这些工作人员将在该唯一文件的不同块上并行工作(我不完全清楚块是否/如何解决。
最终,我想对每一行(每个 json dict)进行一些分析,但作为摄取测试,我只是使用项目的 wordcount.py:
在启动时,自动缩放会迅速将工作人员的数量增加 1->6,但只有一名工作人员可以做任何工作,然后几分钟后自动缩放会回缩 6->1(jobid:2018-10-11_00_45_54-9419516948329946918)
如果我禁用自动缩放并明确设置工作人员的数量,那么除了一个之外,所有工作人员都保持空闲状态。
可以在这种输入上实现并行性吗?非常感谢您的帮助。
anaconda - 查询 anaconda 包的目标平台
我想知道 ananconda .tar.bz2 包的目标平台。有没有办法在不爆炸包装的情况下得到它?
c - Find invalid bz2 file preferable using C/C++
I have around 200 thousand bz2 files in which only one 1 valid. The size of each bz2 file is less than 200 bytes. I need to find the valid one. The command line bz2 utility is taking too much time.
Is there minimal check using file bytes by which I can find invalid bz2 and ignore further processing. I want to do in C/C++ as it would be way faster than shell scripts.
python - EOFError:在解压缩 bz2 文件中检测到逻辑流结束之前压缩文件结束
当我尝试解压缩 wikipedia 转储以使用其 .xml 文件时出现此错误。我该如何解决?
错误:
python - Anaconda 在挂起将 Spyder 安装到新环境后失败
尝试将 Spyder 安装到新环境后,我在使用 (Ana)conda 时遇到了重大问题!我用 . 创建了一个新环境conda create -n py37 -c anaconda python=3.7
,但是当我尝试将 Spyder 安装到此环境时,Anaconda 挂起。
根据How to run Spyder with Python 3.7 with Anaconda,现在应该可以了。
关闭 Anaconda 后出现以下问题:
- Anaconda-Navigator 无法启动
如果我尝试使用 Anaconda Prompt 更新或安装软件包,我会收到以下错误:
/li>如果我尝试跑步,
/li>conda info --envs
我会得到:
对我来说,似乎有些依赖完全搞砸了!
我正在使用 Windows 7。
tar - tar.bz2 无法统计:没有这样的文件或目录
我正在使用以下命令压缩 60G 的银行备份,但日志会通知以下消息。会是什么?
命令:
错误:
python-3.x - python:bz2“增量”和“一次性”(去)压缩与“常规”方法有何不同?
我有一系列目录,每个目录大约 38 MB 在磁盘上,我不需要腌制 Python 3.6 Windows 10 系统。当我运行以下代码时,生成的 .pickle 文件非常大,每个约 158 MB:
这是正常的吗?pickle 是原始数据文件大小的 4 倍。
然后我尝试bz2
使用pickle
,生成的 .pkl 文件要小得多,约为 18 MB:
解压和解压:
我对改进感到满意,但如果我能找到它,我会采取更好的压缩方式。
问题:
- 我注意到还有一种
bz2.open()
方法。到目前为止bz2.BZ2File()
似乎工作,但我什么时候想使用open()
呢? bz2.BZ2File()
使用“常规”(解)压缩和“增量”(bz2.BZ2Compressor
()/bz2.BZ2Decompressor
)和“单次”(bz2.compress
/ )(解)压缩有什么区别bz2.decompress
?我已阅读https://docs.python.org/3.6/library/bz2.html上的文档,但它没有解释这些术语或在什么情况下它们可能更可取。
python - 如何获得解压大型 bz2 文件所需的时间?
我需要使用 Python 处理大型 bz2 文件(~6G),通过逐行解压缩,使用BZ2File.readline()
. 问题是我想知道处理整个文件需要多少时间。
我做了很多搜索,试图获取解压缩文件的实际大小,以便我可以知道即时处理的百分比,从而知道剩余时间,而发现似乎不可能知道解压缩文件的大小无需先解压缩(https://stackoverflow.com/a/12647847/7876675)。
除了解压缩文件需要大量内存之外,解压缩本身也需要很多时间。那么,任何人都可以帮助我即时获得剩余的处理时间吗?