问题标签 [jsonlines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
264 浏览

npm - 为什么jsonlines包会解析到registry.npm.taobao.org?

当我安装 npm 包jsonlines时,它被解析为镜像注册表registry.npm.taobao.org而不是registry.npmjs.org. 它只为jsonlines. 这是什么原因造成的?

这是我的 package-lock.json 的差异。最初的“已解决”值是在另一个开发人员安装软件包时创建的:

我确认我配置的注册表是 npmjs.org:

0 投票
2 回答
537 浏览

python - 在 Python 中读取包含多个对象的 JSON 文件

我正在尝试在 Python 中读取 json 文件并将其转换为数据框。问题是我的 json 文件里面有几个 json 对象。我的json的结构是这样的:

我尝试过使用 json 行和 pandas.read_json 但只有错误。(如您所见,我是python的菜鸟,帮帮我!)

0 投票
4 回答
364 浏览

bash - jq:在从 json 文件和 bash 标准输出读取输入时插入新对象

我想使用 bash 生成的 uuid 在 json 对象之间插入新的 json 对象。

输入json文件test.json

输入bash命令uuidgen -r

目标输出json

插入新对象的基本 jq 程序

输出json

jq 程序插入从 bash 生成的 uuid:

不确定如何处理两个输入、用于在新对象中创建值的 bash 命令以及要转换的输入文件(插入每个对象之间的新对象)。

我想处理大小不超过几千兆字节的 json 文件。

使用精心设计的解决方案极大地满足一些帮助,该解决方案可以扩展大文件并快速有效地执行操作。

提前致谢。

0 投票
2 回答
283 浏览

database - 将包含多个 jsonl 文件的多个文件夹加载到 GCP 中的云数据库中(例如:BigQuery)

数据

数据被格式化为多个.jsonl.gz文件夹中的多个文件,位于Google Cloud Storage 存储桶中。

例如,如果我按文件加载数据文件,我将加载的文件将类似于:

这些jsonl文件内容与平常没有什么不同,这意味着它的内容类似于:

单独的文件并不大,但是将所有文件加起来,我有一个超过 500 GB 的大型数据集,这将很难加载到内存中,将其连接成单个文件并上传到云端。

大查询

似乎BigQuery 允许用户从jsonl文件上传数据,无论它们是否被压缩。然而,它似乎不支持从多个文件中读取,也不支持从多个文件夹中读取。

其他工具

我不限于使用 BigQuery,但我受限于使用 GCP(即使这表示创建 GKE 集群支持的数据库实例)。

有谁知道我该如何处理将这些数据加载到数据库中?

0 投票
1 回答
238 浏览

python - 在 pandas 中加载一个非常大的 jsonl 会返回 ValueError

我正在尝试使用 pandas 中的块加载一个非常大的 jsonl 文件(> 50 GB)

此代码启动,运行一段时间然后返回此错误

我的文件有问题还是其他什么? 我的文件中的样本

0 投票
1 回答
111 浏览

aws-api-gateway - 在 API Gateway 速度映射模板中将 JSON 转换为 JSONL

我收到了一组 JSON 格式的对象的请求。我想在速度映射模板中将这些对象转换为单行 JSON (JSONL)。这可能吗?

来自:

进入

任何帮助将非常感激。

0 投票
1 回答
1738 浏览

python - Json 行 (Jsonl) 生成器转为 csv 格式

我有一个大型 Jsonl 文件 (6GB+),需要将其转换为 .csv 格式。运行后:

返回以下格式的许多记录:

由于文件的大小,我无法使用转换:

由于内存错误。我正在尝试使用下面的生成器并将每一行写入 csv,这应该可以消除 MemoryError 问题:

但是,数据不会写入 .csv 格式。非常感谢有关为什么数据不写入 csv 文件的任何建议!

0 投票
1 回答
182 浏览

json - 无法使用 spark 从多行 json 字符串或 JSONL 字符串创建数据帧

我一直在尝试用 jsonl 字符串形成数据框。我能够形成数据框,但问题是只读取单行,忽略其他行。
这是我在 spark-shell 中尝试的东西

有人在这里想念什么吗?

如果有人想知道为什么我不从文件而不是字符串中读取。resources我在路径中有一个 jsonl 配置文件。当我尝试使用getClass.getResourcescala 读取它时,我在getClass.getResourceAsStream工作时出错,我能够读取数据。

0 投票
1 回答
238 浏览

c# - C# 类型安全的 JSON 行反序列化

目前我正在使用 Shopify GraphQL Bulk Query
此查询返回JSON Lines文件。这样的文件可能如下所示:

该文件的每一行都是一个有效的 JSON 对象,并且这些行相互连接__parentId
我的目标是将其反序列化为 C# 类,如下所示:

以及执行反序列化的潜在函数的输出:

Shopify 建议反向读取文件。我明白了。但我无法想象如何以类型安全的方式反序列化这个文件。我如何确定当前行是 a ProductVariant、 aProductImage还是其他?我无法影响 JSONL 输出以包含类型信息。

我很确定没有类型信息我无法安全地反序列化它。但是我应该如何处理这些数据然后插入到数据库中?

编辑类名{"id":"gid:\/\/shopify\/Product\/5860091625632"}不能用于确定类型!

0 投票
1 回答
27 浏览

json - JQ单独输出

我有一个以这种方式格式化的json:

我有这个输出

我想和 Luigi 的空间马里奥分开。