问题标签 [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
142 浏览

python - 如何获取使用 bz2 (sdcard.bz2) 压缩的 `.sdcard` 文件的大小

我有sdcard.bz2文件并使用 Python 的 tarfile 库来提取文件,我得到一个无效的标头错误。

有没有办法提取档案中的bz2文件并读取该文件的大小。

我已经尝试使用它来提取它,7zip并且我能够毫无问题地提取它,但我需要库或脚本来提取文件,以提取我使用 python 的数据,bz2但如果该文件我无法读取大小。

0 投票
1 回答
4946 浏览

python-3.x - Python3:如何读取txt.bz2文件

有由 bz2 文件压缩的​​文本块。文本文件中的数据如下所示。

我知道如何通过以下代码加载文本文件

但是txt被压缩成small.txt.bz2文件后。我想用下面的数据来读取bz2文件,但是有错误。

错误:

你能给我提示如何处理它,代码是最好的。谢谢!

0 投票
2 回答
1540 浏览

python-3.5 - Python3:将字符串写入 .txt.bz2 文件

我想将两个列表的连接结果写入txt.bz2文件(文件名由代码命名,开头不存在)。像txt文件中的以下表格。

但是有错误。我的代码如下,请给我提示如何处理它。谢谢!

进口bz2

错误:

0 投票
0 回答
224 浏览

python - 使用 Elementree 从 bz2 文件中查找 XML 中的所有标题

我是解析 XML 的新手,并且对在 XML 中查找所有标题(标题标签)的代码感到困惑。这就是我想出的,但它只返回一个空列表,而那里应该有标题。

有人能告诉我为什么这不能正常工作吗?只是要清楚; 我需要找到存储在列表中的标题标签内的所有文本,这些文本取自包含在 bz2 文件中的 XML(据我所知,最好的方法是不解压缩)。

0 投票
1 回答
380 浏览

gensim - 使用 gensim 进行潜在语义索引

为了使用 gensim 的潜在语义索引方法,我想从一个小的“classique”示例开始,例如:

我的问题是:如何获得语料库迭代器'wiki_en_tfidf.mm'?我必须从某个地方下载它吗?我在互联网上搜索过,但没有找到任何东西。请帮忙 ?

0 投票
1 回答
359 浏览

awk - 使用 awk 处理 bz2 文件和进程

我有一个名为“text.bz2”的文件,其中包含我要处理的许多记录。我有一个脚本可以成功处理标准文本文件中的所有数据并将结果输出到不同的“results.txt”文件,但是我当前正在运行的命令将 bz2 文件的所有结果输出到命令提示符(像 cat 一样),创建 results.txt 文件 - 但它是空的。

这是我正在运行的 cammand:

解压后的bz2文件中的数据格式为:

并且输出与预期完全一样,如下所示,但不是将结果输出到文本文件,而是输出到命令窗口:

我的 bzip / 重定向命令做错了什么?

非常感谢

0 投票
1 回答
103 浏览

python - 使用 Python 加密密码时出错

bz2使用 Python使用模块加密密码时出现以下错误。在这里,我将加密值保存在 DB 中。

错误:

这是我的代码:

在这里,当我尝试保存加密值时,这些错误即将到来。

0 投票
2 回答
601 浏览

compression - 从文件夹中删除所有空的 .bz2 文件

我有一个 .bz2 文件的文件夹(实际上在 HDFS 上,但我认为这不会影响问题)。其中一些在解压缩时会给出单个空文件。我想删除所有解压缩为空的 .bz2 文件,我注意到它们的大小均为 14 字节。简单地删除所有 14 字节文件是否安全?或者非空文件是否可以从 14 字节 bz2 压缩/解压缩?

0 投票
2 回答
643 浏览

python - 在 Windows 上解压 bz2 文件

我正在尝试使用以下代码片段解压缩 bz2 文件,该代码片段在各个地方提供:

但是,我得到的文件比我预期的要小得多。

当我使用 7z GUI 提取文件时,我收到一个大小为 248MB 的文件。但是,使用上面的代码,我得到的文件是 879kb。

当我阅读提取的 XML 文件时,我可以看到文件的其余部分已按预期丢失。

我在 Windows 机器上运行 anaconda,据了解bz2在文件实际结束之前达到 EOF。

顺便说一句,我已经遇到了这个两个都没有好处。

0 投票
1 回答
3123 浏览

python - 如何用python解压内存中的.tar.bz2

如何用python解压内存中的*.bz2文件?bz2 文件来自 csv 文件。

我使用下面的代码在内存中解压它,它可以工作,但是它带来了一些脏数据,例如 csv 文件的文件名和它的作者姓名,还有其他更好的方法来处理它吗?

我发现了这个问题,它在 gzip 中,但是我的数据是 bz2 格式的,我尝试按照其中的说明进行操作,但似乎 bz2 无法以这种方式处理它。

编辑:

不管@metatoaster 的回答还是上面的代码,都会给最终解压后的文件带来更多的脏数据。例如:我的原始数据附在下面,格式为 res_test.csv: 在此处输入图像描述

然后我 cd 进入文件所在的目录并使用它进行压缩tar -cjf res_test.tar.bz2 res_test.csv并获取压缩文件 res_test.tar.bz2,该文件可以模拟我将从 Internet 获取的 bz2 数据,我希望将其解压缩到内存中而不缓存它首先进入磁盘,但我得到的是下面的数据并且包含太多脏数据: 在此处输入图像描述

数据仍然存在,但淹没在噪声中,是否可以将其解压缩为与原始数据一样的纯数据,而不是将其解压缩并从过多的噪声中提取真实数据?