问题标签 [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
45 浏览

python - 如何替换bz2file python中的字符串?

我需要在非常大的 bz2file (python3) 中替换字符串,并且文件不应该被解压缩并写入磁盘并再次重写它应该被“即时”替换。

我愿意:

这段代码什么都不做。
我的错误在哪里?

0 投票
1 回答
193 浏览

python - python:从种子文件中提取.bz2压缩文件

我有一个包含 .bz2 文件的 .torrent 文件。我确信这样的文件实际上在 .torrent 中,因为我使用 utorrent 提取了 .bz2。

我怎样才能在 python 中做同样的事情而不是使用 utorrent?

我在 python 中看到了很多用于处理 .torrent 文件的库,但显然没有一个库能满足我的需要。在我不成功的尝试中,我可以提到:

file_cont现在是一本字典,file_cont['info']['name']='RC_2015-01.bz2'但如果我尝试打开文件,即

那么字典的内容(显然,我会说)被解释为路径,我得到

其他尝试的破坏性更大。

0 投票
0 回答
557 浏览

csv - 打开和处理来自 csv.bz2 文件的数据

我是机器学习的新手。我对给定测试和训练数据的模型优化工作感兴趣。我有 filename.csv.bz2 形式的数据。任何人都可以指导我访问、工作、绘制此表格中给出的数据吗?我可以使用打开文件

请指导我。谢谢

0 投票
1 回答
196 浏览

python - 在使用建议的 python 文件时遇到无效的语法

在使用此处提供的以下代码期间,我会出现语法错误,我不知道为什么!我猜这是因为我没有在代码中安装提到的库,但事实并非如此。

这是其中有“文件名”的原始文件

我不知道我面临这个错误的错误是什么?目录有错误吗?或者文件名可能有一些问题?

0 投票
2 回答
271 浏览

python - 使用python限制bz2文件解压?

我有许多以 bz2 格式压缩的文件,我正在尝试使用 python 将它们解压缩到一个临时目录中,然后进行分析。有数十万个文件,因此手动解压缩文件是不可行的,所以我编写了以下脚本。

我的问题是,每当我尝试这样做时,最大文件大小为 900 kb,即使手动解压缩每个文件大约为 6 MB。我不确定这是否是我的代码中的一个缺陷,以及我如何将数据保存为字符串然后复制到文件或其他问题。我已经尝试过使用不同的文件,并且我知道它适用于小于 900 kb 的文件。有没有其他人遇到过类似的问题并知道解决方案?

我的代码如下:

它返回正确的文件路径,但大小错误,上限为 900 kb。

0 投票
1 回答
748 浏览

android - 构建 Python 3.7 时 bz2 模块失败

我正在尝试为 Android 交叉编译 Python 3.7。我在输出中看到 bz2 如果失败并出现以下错误

我正在构建 bzip2 1.0.6 没有任何问题,但我认为我没有正确链接到它或其他问题。我应该建造某种其他架构吗?

这是我正在尝试使用 https://github.com/GRRedWings/python3-android构建的项目

0 投票
1 回答
388 浏览

python - 如何使用python以文本模式读取bz2压缩文件?

我正在尝试使用 python 的 bz2 读取 bzip2 压缩文本文件,但无论模式设置如何,读取的行始终是二进制文件。

我只是尝试了这个:

如果我正确理解文档,“r”模式应该以文本形式打开文件。但是它是二进制的,有或没有 mode="r"。

我究竟做错了什么?

0 投票
4 回答
5654 浏览

python - Python解压相对性能?

TLDR;在python gzipbz2lzma等可用的各种压缩算法中,哪种解压性能最好?

全面讨论:

Python 3 有各种用于压缩/解压缩数据的模块, 包括gzipbz2lzma. gzip并且bz2还可以设置不同的压缩级别。

如果我的目标是平衡文件大小(/压缩比)和解压缩速度(压缩速度不是问题),那么哪个是最佳选择?解压缩速度比文件大小更重要,但由于有问题的未压缩文件每个约为 600-800MB(32 位 RGB .png 图像文件),而且我有十几个,我确实想要一些压缩。

  • 我的用例是我从磁盘加载十几个图像,对它们进行一些处理(作为 numpy 数组),然后在我的程序中使用处理后的数组数据。

    • 图像永远不会改变,我只需要在每次运行程序时加载它们。
    • 处理所需的时间与加载(几秒钟)大致相同,因此我试图通过保存已处理的数据(使用pickle)来节省一些加载时间,而不是每次都加载原始的、未处理的图像。最初的测试很有希望——加载原始/未压缩的腌制数据不到一秒,而加载和处理原始图像需要 3 或 4 秒——但如上所述导致文件大小约为 600-800MB,而原始 png 图像是只有大约 5MB。所以我希望我可以通过以压缩格式存储挑选的数据来在加载时间和文件大小之间取得平衡。
  • 更新:情况实际上比我上面所说的要复杂一些。我的应用程序使用PySide2,所以我可以访问这些Qt库。

    • pillow如果我读取图像并使用( )转换为 numpy 数组PIL.Image,我实际上不需要进行任何处理,但将图像读入数组的总时间约为 4 秒。
    • 相反,如果我QImage用来读取图像,那么我必须对结果进行一些处理,以使其可用于我的程序的其余部分,因为QImage加载数据的方式是字节序的——基本上我必须交换位顺序和然后旋转每个“像素”,使 alpha 通道(显然是由 QImage 添加的)最后而不是第一个。整个过程大约需要 3.8 秒,比仅使用 PIL稍微快一点。
    • 如果我保存numpy未压缩的数组,那么我可以在 0.8 秒内重新加载它们,这是迄今为止最快的,但文件大小很大。

.png 图像示例:以这张 5.0Mb 的 png 图像为例,它是阿拉斯加海岸线的高分辨率图像

png/PIL 案例的代码(加载到numpy数组中):

在我使用 Python 3.7.2 的机器上,这个负载大约需要 4.2 秒。

或者,我可以加载通过选择上面创建的数组生成的未压缩的 pickle 文件。

未压缩的pickle负载情况的代码:

在我的机器上从这个未压缩的 pickle 文件加载大约需要 0.8 秒。

0 投票
1 回答
100 浏览

python - Anaconda (Jupyter) 看不到文件 <.tar.bz2> 中以前安装的包

我尝试使用 Anaconda3-2019.07。我已经从文件 <.tar.bz2> 离线安装了 mxnet 库。我这样做是因为我使用的服务器没有互联网连接。为此,我输入:

conda install --offline mxnet-1.2.1-h8cc8929_0.tar.bz2

该软件包已成功提取到我可以看到的文件夹中,但是当我输入“help(“modules”)”查看已安装的库时,mxnet 不存在。当我进入“点子列表”时,也会出现同样的情况。但是,当我在 Anaconda Promt 中输入“conda list”时,“mxnet”在列表中(但频道未知)。问题在于图书馆不工作。

如何在离线模式下正确安装 <.tar.bz2> 包?

0 投票
0 回答
329 浏览

python - Pandas: Read random sample of data using read_json

I would like to read in a random sample of a large .bz2 file.

Similarly to how you would read in a sample of csv like this:

I've figured out how to read the file in chunks, but this isnt random.

the above-commented line is where I attempt to randomise rows by selecting random samples of the users but it doesnt seem to work. Any ideas?