问题标签 [bz2]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
98 浏览

wikidata - 有没有办法在不调用 next() 的情况下跳过 Python 中 bz2 文件的前 x 行?

我正在尝试阅读最新的 Wikidata 转储,同时跳过第一行,比如 100 行。

next()有没有比重复调用更好的方法来做到这一点?

或者,有没有办法在 bash 中拆分文件,例如,使用bzcat管道选择块到较小的文件?

0 投票
1 回答
114 浏览

python - 在 Python 中连接到 bz2 sqlite 数据库

我有一个 bz2 文件(我从未使用过此类文件)。当我手动解压缩它时,我看到它是一个包含多个表的 sqlite 数据库,但我不知道如何从 python 连接到它而无需手动解压缩(我有很多数据库,所以它必须在剧本)。到目前为止,我已经尝试了以下方法,但出现错误。

但是,当我对解压缩文件执行相同的查询时,我确实得到了所有表。

0 投票
1 回答
161 浏览

python - 如何将 30GB 大 bz2 文件拆分为多个小 bz2 文件并为每个文件添加标题

我有大量没有任何标题的bz2格式化文件(每个)。30GB我可以500M使用以下内容轻松地将它们拆分为每种尺寸pileline

但是我无法添加['a' 'b' 'c' 'd' 'e' 'f' 'timestamp']要包含每个拆分bz2文件的标题。

更重要的是,我想不基于 拆分文件500M,而是希望bz2每天根据数据中的内容拆分文件(例如:splitted_file_2021-01-01.csv.bz2和) 。splitted_file_2021-01-02.csv.bz2timestamp

数据是制表符分隔的文本,如下所示(没有标题,需要添加它们):

0 投票
1 回答
59 浏览

python - Python ijson - 解析错误:尾随垃圾 // bz2.decompress()

使用 ijson 解析 json 时遇到错误。

背景:我有一系列(大约 1000 个)推特数据的大文件,这些文件以“.bz2”格式压缩。我需要将文件中的元素放入 apd.DataFrame中以进行进一步分析。我已经确定了我需要获取的密钥。我很谨慎地发布推特数据。

尝试:我已经设法使用bz2.decompress以下代码解压缩文件:

这给出了以下错误:

两件事情:

  • 我的解压方法是否正确并为 ijson 解析提供了正确的文件类型(ijson 需要字节和 str)?
  • 是 JSON 错误吗?// 如果是 JSON 错误,是否可以开发某种错误处理程序来移动到下一个文件 - 如果是这样,任何建议都将不胜感激?

任何帮助将不胜感激。

谢谢你,詹姆斯

0 投票
1 回答
60 浏览

python - 如何 BZ2Decompress 包含多个文件的文件?

我正在尝试将一个 zipfile(用 BZ2 压缩)解压缩到一个目录中。zipfile 包含多个文件。

所有(我已经看过很多......)示例展示了如何将 zipfile 解压缩到一个文件中。

这是我到目前为止所拥有的:

错误是:

嗯,“/Users/bert/Project/data/51fba56e-c598-491a-a5e4-57373a59367a”确实是一个目录。这就是应该的,因为解压缩的文件(来自 BZ2 zipfile)应该写在那个目录中。

为什么解压器会抱怨这是一个目录?

如果我将目标更改为文件

它给出了以下错误:

0 投票
0 回答
26 浏览

python - 如何解决此错误:“'TreeEnsemble' 对象没有属性 'model_output'”

''' features = [gender, SeniorCitizen, Partner, Dependents, Tenure, PhoneService, MultipleLines, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, PaperlessBilling, MonthlyCharges, TotalCharges, InternetService_Fiberoptic, InternetService_No, Contract_Oneyear,Contract_Twoyear, PaymentMethod_CreditCard, PaymentMethod_ElectronicCheck, PaymentMethod_MailedCheck] final_features = [np.array(features)]

当我们尝试运行 python 文件时,错误是关于树集合的。错误说:'TreeEnsemble' 对象没有属性'model_output'。请帮助纠正此错误,回溯是:文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\flask\app.py”,第 1836 行,调用中 返回 self.wsgi_app(environ, start_response) 文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\flask\app.py”,第 1820 行,在 wsgi_app response = self. make_response(self.handle_exception(e)) 文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\flask\app.py”,第 1403 行,在 handle_exception reraise(exc_type, exc_value, tb) 文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\flask_compat.py”,第 33 行,在 reraise raise value 文件“C:\Users\utrej\ AppData\Local\Programs\Python\Python38\Lib\site-packages\flask\app.py”,第 1817 行,在 wsgi_app 响应 = self.full_dispatch_request() 文件“C:\Users\utrej\AppData\Local\Programs\ Python\Python38\Lib\site-packages\flask\app.py",第 1477 行,在 full_dispatch_request rv = self.handle_user_exception(e) 文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\flask\app.py”,第 1381 行,在 handle_user_exception reraise(exc_type, exc_value, tb) 文件中“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\flask_compat.py”,第 33 行,在 reraise raise 值文件“C:\Users\utrej\AppData\Local\Programs \Python\Python38\Lib\site-packages\flask\app.py”,第 1475 行,在 full_dispatch_request rv = self.dispatch_request() 文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib \site-packages\flask\app.py",第 1461 行,在 dispatch_request 中返回 self.view_functionsrule.endpoint 文件 "C:\Users\utrej\Desktop####\product dev lab\Customer-Survival-Analysis-and- Churn-Prediction-master\app.py",第 118 行,在 predict shap_values = explainer.shap_values(np.数组(final_features))文件“C:\Users\utrej\AppData\Local\Programs\Python\Python38\Lib\site-packages\shap\explainers\tree.py”,第 298 行,在 shap_values 中,如果 self.model.model_output == “log_loss”: