问题标签 [jsonlines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
42 浏览

json - 显示两个 json 行

我想生成一个自定义 json 行并将其与另一个行一起显示。我现在只能显示一个 json 行。我需要按顺序显示这两个。我正在将属性“索引”添加到属性“命中”中curl data.json | jq '{"index": {"index": {}}} + .hits.hits[]'

我尝试使用管道进行管道传输jq '.index + ._source',但这只是将属性连接到_source。我试过jq .index ._source了,但这是一个错误。

我可以通过管道传输结果来选择 _source 或 .indexjq ._sourcejq .index. 这将正确生成 json 行。没关系。现在我需要 .index,在 ._source 的每个 json 行之前。

我需要结果看起来像这样:

谢谢!

0 投票
2 回答
285 浏览

python - Python:在大型 jsonl 文件中查找重复项

我试图在我的 jsonl 文件中找到所有包含相同标识符值的 json 对象。

因此,如果我的数据如下所示:

我想找到具有相同标识符值的每个对象。该文件太大而无法一次全部加载,因此我逐行检查并仅存储标识符值。这样做的缺点是缺少具有该标识符的第一个对象(即,如果对象 A、B 和 C 都具有相同的标识符,我最终只会保存 B 和 C)。为了找到第一次出现的标识符,我尝试第二次通读该文件,以便仅在第一次找到每个重复的标识符时才找到它。这是我遇到一些问题的地方。

这部分按预期工作:

但是当我第二次阅读文件时:

它运行了约 30 分钟,最终使我的计算机崩溃。我假设(希望)这是因为我的代码而不是我的计算机有问题,因为代码更容易修复。

0 投票
2 回答
498 浏览

r - R 在 .jsonl 文件中读取速度非常慢

我需要将 .jsonl 文件读入 R,而且速度很慢。对于一个 67,000 行的文件,加载需要 10 多分钟。这是我的代码:

这是 .jsonl 文件的示例

所以我的问题是:(1)为什么要花这么长时间才能运行,(2)我该如何解决?

0 投票
4 回答
3348 浏览

python - 从json文件中提取文本并保存到文本文件中

我已经尝试过json.loads()

我的 json 文件看起来像多个对象:

dict['text']任何关于如何解决现有问题并将其写入文本文件的建议将不胜感激

0 投票
0 回答
189 浏览

r - 将 JSON 行文件转换为 R 数据框

我有一个 json 行形式的示例提取,其中包含单个对象和大约 100 行。每行大约有 800 个项目。

以下是数据示例:

Row 1 - {"Id":"User1","OwnerId":"OwnerID1","IsDeleted":false,"Name":"SampleName1", etc...}

Row 2 - {"Id":"User2","OwnerId":"OwnerID2","IsDeleted":true,"Name":"SampleName2", etc...}

我想把它变成一个看起来像这样的数据框:

我对 dplyr 和 tidyr 做了一些试验,但没有成功。

有什么建议是处理这个问题的最佳方法吗?

我能够通过首先通过 JSON 验证器解析数据来修复数据格式来解决此问题。一旦我将数据转换为“正确”的 JSON 格式,就可以直接在 R 中将其作为数据框使用。

我按照其他用户的建议使用了 jsonLite,一切顺利。

由于数据结构的原因,需要转换为矩阵。

然后进行另一个转换,以便可以将其导出到具有正确列和行对齐的 csv。


0 投票
2 回答
3217 浏览

json - 将 JSON 行序列 (JSONL) 转换为 JSON 数组

我有一个文件,其中每一行都是一个 JSON 对象。我想将文件转换为 JSON 数组。

该文件看起来像这样:

我正在使用 bash 和 jq。

我试过了

但这只是将每一行视为创建字符串 JSON 数组的字符串。

我想要:

0 投票
1 回答
948 浏览

python - 如何通过简单的文件读取加载 jsonlines 文件

考虑有下面的代码和一个jsonl文件,
有一个特定的原因我不使用jsonlines.open()api 读取文件,所以请将此作为事实。

jsonlines 包的参考: https ://jsonlines.readthedocs.io/en/latest/#jsonlines.Reader

example.jsonl内容:

我上lst=线的错误:

0 投票
1 回答
584 浏览

python - 加快 gzipped jsonlines 文件的解析

我有大约 5,000.gzip个文件(每个文件约 1MB)。这些文件中的每一个都包含某种jsonlines格式的数据。这是它的样子:

我想解析这些文件并将它们转换为熊猫数据框。有没有办法加快这个过程?这是我的代码,但有点慢(每个文件 0.5 秒)

0 投票
0 回答
59 浏览

google-cloud-platform - GCP - 是否有任何 api 暴露来创建 jsonl 文件

请帮助 GCP - 可以在 c# 代码中使用的 automl api,这样我们可以传递 gcp 存储桶位置并且接收到的输出是 jsonl(与我们使用谷歌控制台将文档导入数据集时接收到的 jsonl 相同)

谢谢

0 投票
0 回答
990 浏览

json - json 将每条记录格式化为一行

我有一个看起来像这样的 json:

等等

我想像这样在一行中输出每条记录(因为 AWS Athena 需要这种格式):

我使用“jq -c .myjson.json”进行格式化。我希望它把每条记录放在一行中,但它把每条记录都放在一起,所以我的 json 有一个很长的单行。