问题标签 [bz2]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

96 问题

0 投票

2 回答

126 浏览

python - 如何从字符串中删除解压后留下的字节串？

我有一堆字符串，它们是看起来像这样的句子：

Having two illnesses at the same time is known as \xe2\x80\x9ccomorbidity\xe2\x80\x9d and it can make treating each disorder more difficult.

.encode()我用python的bz2库对原始字符串进行了编码，然后进行了压缩。

然后我解压bz2.decompress()并用来.decode()取回它。

有什么想法可以方便地从文本中删除这些字节串或避免引号之类的字符无法正确解码吗？

谢谢！

python bz2

2020-01-28T13:31:26.537

0 投票

0 回答

209 浏览

python-3.x - 如何使用 python 使用多流解析 .xml.bz2 格式的大型维基百科转储，这样我就不必打开整个文件？

这是讨论维基百科转储以及如何使用多流的文章的链接，这样我就不必打开整个文件来解析它。这是它建议使用的库。

我的问题是我不知道如何正确使用索引文件或该库来正确解析文件。当我尝试解压缩它时，我只读取了一系列空字节“b''”。我想要做的是能够一次解析几千个字符的文件，这样我就可以将它们用于我的 NLP 应用程序。

提前致谢。

2020-02-06T19:00:25.090

0 投票

0 回答

613 浏览

python - Python3.7.4 - 导入熊猫库时出错

我已经使用以下命令手动安装了 Python-

以及后来的 NumPy 和 Pandas 库手动如下 -

错误 -

然后我尝试了如下所述的解决方法，但没有帮助

缺少 python bz2 模块

以下是操作系统详细信息-

python linux pandas import bz2

2020-04-10T14:39:55.707

0 投票

1 回答

302 浏览

r - 如何在 R 中使用 fread 读取 .pgn.bz2 文件？

我正在尝试从https://database.lichess.org/读取国际象棋游戏文件，其中文件存储为 pgn 的 bzip。pgn 文件的示例格式如下所示：

我可以read.csv直接从 bz2 文件中读取文件：

但问题是 read.csv 非常慢并且文件有数百万行。所以我想我会使用fread它，因为它现在可以读取 .bz2 文件。问题是当我尝试以下

该命令只运行了很长时间而没有任何结果。我的会话信息（）：

我尝试使用普通的 .pgn 文件，fread但读取不正确。因为它拆分了列并丢弃了游戏符号，所以对于上面的示例，它会导致如下所示：

但至少它正在阅读它。有人会对如何去做有任何建议吗？如何使用fread正确读取 .pgn.bz2 文件？

r data.table bz2

2020-06-02T06:38:11.800

0 投票

0 回答

118 浏览

python - python bz2.decompress 添加标题

我正在尝试在 Python 中解码 .bz2 文件。当我使用解压缩方法时，问题似乎出现了，因为它在原始数据之前添加了标题/前缀。

输出为：po_dùdbplist00 òî3¸¦!@öÎÚh@åU-<[3³{ëTÕÍuGò|À6C0Õ4ñqí¿W·GÝ>òSþUé¶ÓÙÅ。û®fP±b±Oã0SÞº%PaxHeader/secondP5D000644 000765 000024 00000000033 13705257402 016161 xustar00davidstaff000000 000000 27 mtime=1595236098.142357 secondP5D000644 000765 000024 00000000060 13705257402 014210 0ustar00davidstaff000000 000000 ES0113000058876511WG0F;2020/03/07 01:00;0;333;;

其中数据应仅为 ES0113000058876511WG0F;2020/03/07 01:00;0;333;;

如果我不使用 ISO-8859-1 的解码功能，我会收到错误，例如

文件“/Users/X/Downloads/zeppelin-0.8.2-bin-all/interpreter/python/py4j-0.9.2/src/py4j/protocol.py”，第 202 行，在 smart_decode 返回 unicode(s,“utf -8") UnicodeDecodeError：'utf8'编解码器无法解码位置 549 中的字节 0xf5：无效的起始字节

如何打开文件并使用解压缩器所以没有标题？如果我在 mac 命令行中使用 tar xvf secondP5D.bz2 执行相同操作，则生成的文件不包含标题/前缀

python encoding compression bz2

2020-07-21T11:23:39.310

0 投票

0 回答

27 浏览