问题标签 [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
126 浏览

python - 如何从字符串中删除解压后留下的字节串?

我有一堆字符串,它们是看起来像这样的句子:

Having two illnesses at the same time is known as \xe2\x80\x9ccomorbidity\xe2\x80\x9d and it can make treating each disorder more difficult.

.encode()我用python的bz2库对原始字符串进行了编码,然后进行了压缩。

然后我解压bz2.decompress()并用来.decode()取回它。

有什么想法可以方便地从文本中删除这些字节串或避免引号之类的字符无法正确解码吗?

谢谢!

0 投票
0 回答
209 浏览

python-3.x - 如何使用 python 使用多流解析 .xml.bz2 格式的大型维基百科转储,这样我就不必打开整个文件?

是讨论维基百科转储以及如何使用多流的文章的链接,这样我就不必打开整个文件来解析它。是它建议使用的库。

我的问题是我不知道如何正确使用索引文件或该库来正确解析文件。当我尝试解压缩它时,我只读取了一系列空字节“b''”。我想要做的是能够一次解析几千个字符的文件,这样我就可以将它们用于我的 NLP 应用程序。

提前致谢。

0 投票
0 回答
613 浏览

python - Python3.7.4 - 导入熊猫库时出错

我已经使用以下命令手动安装了 Python-

以及后来的 NumPy 和 Pandas 库手动如下 -

错误 -

然后我尝试了如下所述的解决方法,但没有帮助

缺少 python bz2 模块

以下是操作系统详细信息-

0 投票
1 回答
302 浏览

r - 如何在 R 中使用 fread 读取 .pgn.bz2 文件?

我正在尝试从https://database.lichess.org/读取国际象棋游戏文件,其中文件存储为 pgn 的 bzip。pgn 文件的示例格式如下所示:

我可以read.csv直接从 bz2 文件中读取文件:

但问题是 read.csv 非常慢并且文件有数百万行。所以我想我会使用fread它,因为它现在可以读取 .bz2 文件。问题是当我尝试以下

该命令只运行了很长时间而没有任何结果。我的会话信息():

我尝试使用普通的 .pgn 文件,fread但读取不正确。因为它拆分了列并丢弃了游戏符号,所以对于上面的示例,它会导致如下所示:

但至少它正在阅读它。有人会对如何去做有任何建议吗?如何使用fread正确读取 .pgn.bz2 文件?

0 投票
0 回答
118 浏览

python - python bz2.decompress 添加标题

我正在尝试在 Python 中解码 .bz2 文件。当我使用解压缩方法时,问题似乎出现了,因为它在原始数据之前添加了标题/前缀。

输出为:po_dùdbplist00 òî3¸¦!@öÎÚh@åU-<[3³{ëTÕÍuGò|À6C0Õ4ñqí¿W·GÝ>òSþUé¶ÓÙÅ。û®fP±b±Oã0SÞº%PaxHeader/secondP5D000644 000765 000024 00000000033 13705257402 016161 xustar00davidstaff000000 000000 27 mtime=1595236098.142357 secondP5D000644 000765 000024 00000000060 13705257402 014210 0ustar00davidstaff000000 000000 ES0113000058876511WG0F;2020/03/07 01:00;0;333;;

其中数据应仅为 ES0113000058876511WG0F;2020/03/07 01:00;0;333;;

如果我不使用 ISO-8859-1 的解码功能,我会收到错误,例如

文件“/Users/X/Downloads/zeppelin-0.8.2-bin-all/interpreter/python/py4j-0.9.2/src/py4j/protocol.py”,第 202 行,在 smart_decode 返回 unicode(s,“utf -8") UnicodeDecodeError:'utf8'编解码器无法解码位置 549 中的字节 0xf5:无效的起始字节

如何打开文件并使用解压缩器所以没有标题?如果我在 mac 命令行中使用 tar xvf secondP5D.bz2 执行相同操作,则生成的文件不包含标题/前缀

0 投票
0 回答
27 浏览

c# - 使用核心 c# 库解压缩 BZ2 格式

我正在尝试解压缩 .bz2 文件。我不想使用外部解压缩库或第三方 nuget 包。有没有办法只使用 c# 核心库来解压缩?

0 投票
1 回答
405 浏览

python - usr/local/lib/libbz2.a:无法读取符号:错误值

安装python时,出现以下错误:

然后使用以下命令安装python。

0 投票
1 回答
36 浏览

postgresql - 如何提取 bzipped PostgreSQL 转储的一部分

我有一个 PostgreSQL 纯格式转储,只需要两三个表的数据。转储为 gz2 格式。

不工作。也试过

转储文件超过 30GB。

0 投票
0 回答
52 浏览

python - 如何在不在 python 中迭代文件的情况下随机拆分 json.bz2 文件?

我有一个超过 50GB 的 json.bz2 文件。我想将文件拆分为分区以使用 python 在多线程中运行进程。

您能否建议我使用 python 代码随机拆分 json.bz2 文件(无需读取/迭代)的理想方法?

注意:流程不应花费数小时来拆分。

0 投票
1 回答
53 浏览

plugins - 我在下载的bz2中找不到exe文件

基本上我需要下载一个 bz2 文件,保存它,然后在我正在使用的程序(pano2vr)中运行 exe 文件。问题是 - 我在 bz2 下载中找不到 exe 文件。

以下是说明: https ://ggnome.com/doc/glossary_ffmpeg/

这是我下载并提取的文件(使用 PeaZip): https ://ffmpeg.org/download.html#build-windows

我在任何地方都找不到 exe 文件(说明中提到的)!帮助!