问题标签 [ndjson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
35 浏览

json - Elastic Search -ndjson 上传文件问题

此图像显示数据分析成功,但要导入的字段为空。

我目前正在使用 Elastic Search -Kibana,我尝试使用上传文件选项(注入您的数据)导入 ndjson 文件,正在分析数据,但要导入的字段为空。有人可以帮忙吗?

下面是我正在使用的 ndjson:

{"候选人":{"first_name":"Margaret","last_name":"Mcdonald","skills":["skLearn","Java","R","SQL","Spark","C++" ],"state":"AL","specialty":"Database","experience":"Mid","re​​location":"no"}} {"candidate":{"first_name":"Michael"," last_name":"Carter","skills":["TensorFlow","R","Spark","MongoDB","C++","SQL"],"state":"AR","specialty":"统计","经验":"高级","搬迁":"是"}} {"候选人":{"first_name":"布伦达","last_name":"Tyler","skills":["Spark"],"state":"UT","specialty":"Database","experience":"Mid","re​​location":"no"}} {"候选人":{"first_name":"Joseph","last_name":"King","skills":["skLearn","SQL","R","Spark","Java","C++" ,"Python","TensorFlow"],"state":"FL","specialty":"Machine Learning","experience":"Senior","re​​location":"maybe"}} {"candidate":{ "first_name":"Laura","last_name":"Webb","skills":["TensorFlow","C++","SQL","Java","R","MongoDB"],"state":"WY","specialty":"Machine Learning","experience":"Junior","re​​location":"maybe"}} {"candidate" :{"first_name":"Cheryl","last_name":"Ramirez","skills":["C++","Python","R","Java","skLearn","SQL","MongoDB" ,"Spark","TensorFlow"],"state":"OK","specialty":"Data Visualization","experience":"Mid","re​​location":"no"}} {"candidate":{ "first_name":"Charles","last_name":"Stewart","skills":["MongoDB","C++","Java","SQL","R","Python","skLearn"],"state":"NM","specialty":"Machine Learning","experience":"Mid","re​​location":"maybe"}} {"候选人":{"first_name":"Bradley","last_name":"Peterson","skills":["skLearn","MongoDB","Spark"],"state":"TX","specialty ":"数据可视化","经验":"高级","搬迁":"是"}} {"候选人":{"first_name":"William","last_name":"Lin","skills": ["Python","skLearn","R"],"state":"WI","specialty":"机器学习","经验":"中期","搬迁":"可能"}} {"候选人":{"first_name":"Richard","last_name":"Woods","skills":["skLearn","MongoDB" ],"state":"UT","specialty":"Database","experience":"Senior","re​​location":"yes"}}

0 投票
2 回答
86 浏览

python - 合并2个json文件

我正在尝试合并两个 json 文件,但我正在尝试将时间戳从 file2 附加到 file1.please 指南中的相应帧号。

JSON_FILE1

JSON_FILE2

预期输出:

我尝试过这种方式,但我无法实现。

0 投票
1 回答
95 浏览

json - 将多个以换行符分隔的 JSON 文件的文件夹连接到单个文件中

我们有一个/our_jsons包含文件的目录:

文件 1.json

文件2.json

文件 3.json

我们需要将它们堆叠到一个文件output_file.json中,它只是将我们目录中的所有 JSON 组合/堆叠在一起:

输出文件.json

这可能与 Mac / Linux 中的 bash 命令有关吗?我们希望这比组合普通 JSON 更容易,因为这些是 NDJSON,因此文件真的只需要一个一个地堆叠在一起。我们的完整数据要大得多(约 10GB 的数据拆分为 100 多个换行符分隔的 JSON),如果可能的话,我们希望找到一个性能良好(不到 2-5 分钟)的解决方案。我刚刚安装并正在阅读jq当前的文档,如果我们提出解决方案会更新。

编辑:

它看起来像jq . our_jsons/* > output_file.json连接 JSON,但输出不是 ND JSON,而是一个普通(且无效)的 JSON 文件......

0 投票
1 回答
45 浏览

json - 在换行符分隔的 JSON 文件中将类型从字符串转换为整数

根据导出到 JSON 时如何保留整数数据类型?,目前无法在从 BigQuery 导出到 JSON 时保留整数类型。关于 BigQuery --> GCS JSON 导出的这个小细节给我们带来了很多问题。我们的一个表导出的结果是一个以换行符分隔的 JSON,如下所示:

team,leagueId都应该是整数,我们想修改这个 NDJSON 将这些字符串转换回它的。我们要的输出是:

假设我们知道/有一个需要从字符串转换为整数 [team, LeagueId] 的列的列表/数组,我们如何进行这种转换?这可能与(a)使用类似工具的bash命令jq,或者(b)有一些python解决方案吗?我们完整的 NDJSON 大小约为 10GB,性能很重要,因为这是我们日常数据摄取管道中的一个步骤。

编辑: 如何使用 jq 将字符串转换为 JSON 文件中的整数?- 试图利用这篇文章来提供帮助。已经想出了jq '.team | tonumber' tmp/testNDJSON.json,但这只是返回1 2 3 4 5 6,而不是更新的 JSON,并且只处理一个键,而不是多个键。

Edit2: 如果不是第一个 JSON 中的缺失值,jq -c '{leagueId: .leagueId | tonumber, team: .team | tonumber, name: .name}' tmp/testNDJSON.json > tmp/new_output.jsonteam起作用......越来越近。

0 投票
1 回答
117 浏览

python - 如何将数据转换为所需格式并写入文件 - Python + Apache Beam

我有一个.ndjson文件如下所示:

我使用 Apache Beam 读取它并将数据按 分组property_id,然后将输出写入 json 文件,但数据如下所示:

我们可以看到 for property_id = '109',它分组了三个记录,但是上面的输出格式真的很奇怪......有没有人知道为什么会这样以及如何将其转换为换行符分隔的 JSON 格式,然后写入 JSON 文件?

预期的格式看起来像(不确定这是否是有效的换行符分隔的 json 格式,但想法是将相同的事务property_id(例如109)包含在数组中):

有人可以帮忙吗,我很新,任何帮助将不胜感激。谢谢。

0 投票
2 回答
80 浏览

python - 在python中替换JSON键值和分解值

我有一组 ndJOSN 数据集,如下所示:

我需要将上面的值传递给 api 请求,特别是下面格式的正文。

如您所见,密钥不同,因此我需要更改密钥以与正确的数据对齐并使用新的密钥名称传递它们(即 address_line_1 发送给收件人) - 此请求中将有 10k 个地址.

在我的第一个示例中我没有注意到它,但是每个地址都有一个关联的 ID - 我必须删除才能发出请求,然后重新添加。所以我最终用下面的方法解决了 - 任何更多的 Pythonic,这些感觉对我来说不是那么雄辩……?

0 投票
1 回答
227 浏览

javascript - 无法在 Node 中使用 ndjson 流,但类似的代码在 React 中有效

我正在尝试在 lichess.org 上使用此端点的数据。

这是一个使用该数据流的 React 组件的最小工作示例。我正在使用一个名为can-ndjson-stream的库。

但是,如果我尝试编写相同的代码并像这样在 Node 中运行它:

我收到此错误:

ReferenceError:ReadableStream 未在 ndjsonStream 中定义

因此,从 fetch 中获取的似乎res是 null 或未定义,但获取其他 API 工作正常。

我还尝试使用axios而不是node-fetch,如下所示:

但它只是挂起并且没有显示输出。感谢任何可以对此有所了解或提供在 Node.js 中运行它的任何替代方法的人。

0 投票
1 回答
76 浏览

json - Amazon S3 json 文件到 BigQuery

我想将 json 文件从 Amazon S3 传输到 BigQuery,但我遇到了 BigQuery 仅支持新的分隔 json 文件的问题。我不知道如何将我的 json 文件转换为 ndjson。问题是我不知道如何转换,因为外部 JSON 结构中的加载日期和记录源。

在这里您可以看到我的 json 文件的示例:

0 投票
0 回答
32 浏览

json - 如何为 application/x-ndjson 属性输出

当我curl--header 'Accept: application/x-ndjson'

外部数组消失了,但每个元素中的所有新行都没有消失。

我怎样才能使它们尽可能单行?

0 投票
0 回答
14 浏览

api - 使用 ndjson 发布请求返回错误消息

我正在使用 json 测试 Jira Insight 导入 API,可以导入到同一端点的文件数量有限制,所以我正在使用 ndjson 进行测试。

错误信息:

{"errorMessages":["HTTP 415 Unsupported Media Type"],"errors":{}}

我是否遗漏了什么,或者这是否意味着 API 不接受 ndjson?