问题标签 [ndjson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1281 浏览

javascript - 如何在 Node.js 中关闭 https 流

我正在.ndjson通过 https 加载文件。我想在读取 100 行文件后关闭它。

但是我尝试关闭流的每一种方式,都会出现相同的错误消息:

并且流在未强制关闭时工作正常,因此与ndjson文件无关。是否可以在请求中间关闭流?

0 投票
1 回答
75 浏览

json - D3 映射的左连接返回 null,这会阻止数据处理的下一步(ndjson-join 或 jq)命令行

我正在州一级进行 D3 映射。这是我在数据处理中遇到的一个问题。比如地图数据是这样的,(dat1.ndjson)

但通常我们掌握的信息并不完整,比如南极洲通常没有信息,但我们在测绘时仍然需要绘制它的轮廓。信息数据就像,(dat2.ndjson)

因此,当我尝试对这两个数据进行左连接时,它将返回 (dat3.ndjson)

这是由

目的是把这个'count'信息连接到map数据上,所以通常我会先在dat1.ndjson中给所有的item赋一个count=0,像这样,(dat11.ndjson)

然后像我之前展示的那样使用这个左连接方法来得到这样的东西,(dat33.ndjson)

但问题来了。如果我使用以下命令将所有值相加,则会由于第三行中的 null 而返回错误。

现在我必须在 R 中进行此数据处理,这需要花费大量时间,因为我需要在 .ndjson 和 .csv 之间进行转换。所以我正在寻找一种更好的方法来做到这一点。我认为可能有一些方法可以使用“ndjson-cli”、“jq”或“awk”和“sed”等。

有人有想法吗?谢谢!:)

E.

0 投票
0 回答
165 浏览

r - 遍历文件夹中的多个 .txt 文件,解析 NDJSON 字符串并在 R 中写入 .csv 输出文件

我是目前正在处理一个项目的编码新手,这需要我解析位于 .txt 文件中的 NDJSON 字符串。我有数百个 .txt 文件,每个文件包含多达 100 万个 NDJSON 字符串。我有以下代码,我知道它可以成功解析一个单独的文件(如果我明确说明 .txt 输入文件的名称和 .csv 输出文件的名称):

在上面的示例中,我只是将目录设置为一个文件夹,并确保文件位于该文件夹中。

我现在想重复这个过程,但我想循环浏览文件夹中的所有文件,而不是手动输入每个文件的名称并调整输出文件。每个文件都包含与特定灾难相关的推文信息,因此我希望能够为每个文件创建逻辑名称,例如Nepal01.txt、Nepal02.txt、HurricaneSandy01.txt 等。我这样说是因为每个文件都很长,所以如果我重命名它们,我想启用这个过程,但保持名称合乎逻辑。出于这个原因,我需要找到一种动态方式来选择所有以 .txt 结尾的文件,并以 .csv 格式动态写入具有相关名称的输出文件,例如,Nepal_reduced01.csv、Nepal_reduced02.csv、HurricaneSandy_reduced01.csv 等。

以下是我迄今为止失败的尝试:

下面是错误消息的图像:

在此处输入图像描述

0 投票
1 回答
596 浏览

sql - 在 SQL Server 2016 中打开 ndJSON 格式

如何在 SQL Server 2016 中打开 ndJSON 格式?我可以使用 JSON 格式打开,但对如何使用 ndJSON 进行操作一无所知。

SQL Server 中是否有特定的函数可以执行此操作,或者是否有其他方法?

JSON 格式:

ndJSON 格式:

0 投票
1 回答
494 浏览

python - 如何在 Python 中最好地展平 NDJson 数据

我有一个巨大的 NDJson 格式数据文件 (>400MB),我喜欢将其展平为表格格式以供进一步分析。

我开始手动迭代各种对象,但有些对象相当深,甚至可能会随着时间而改变,所以我希望有一种更通用的方法。

我确信 pandas lib 会提供一些东西,但找不到任何对我有帮助的东西。此外,我发现的其他几个库似乎没有“完全”提供我所希望的(flatten_json)。这一切似乎还很早。

目前是否有可能没有很好的(快速和简单的)解决方案?

任何帮助表示赞赏

0 投票
1 回答
1418 浏览

r - 读取非常非常大的 NDJSON

我有一个 33GB 的 NDJSON 文件,需要读入 R 中的 data.table。它被压缩成 2GB 的文件,理想情况下我希望将其压缩。

结构并不那么重要,除了(通过 导入时jsonlite::stream_in),我需要的数据仅在几个简单的列中。数据的绝大部分权重都保存在list我想尽快丢弃的三列内的 s 中。

我的两个挑战是:如何并行化读入,以及如何限制内存使用(现在我在这个文件上的工作人员正在使用 175GB 内存)?

我现在在做什么:

dt.x <- data.table(flatten(stream_in(gzfile("source.gz"))[, -c(5:7)]))

想法:

也许有一些方法可以忽略 NDJSON 的一部分stream_in

我可以在gzfile连接之前解析连接,例如使用正则表达式,stream_in以删除多余的数据吗?

我可以readLinesgzfile连接上执行类似操作以读取每个工作人员 100 万行的数据吗?

编辑:如果可能的话,我的目标是让其他用户可以移植并完全保留在 R 中。

0 投票
1 回答
135 浏览

r - 将 ndjson 导入 R 跳过前 n 行

如何将一个大的ndjson(20GB)文件逐块读入R?

我有一个大数据文件,我想一次读取 1M 行。

目前,我正在使用下面的代码将数据加载到 R 中。

但我不需要将所有数据一起加载。如何将此文件拆分为块以更快地加载?

0 投票
1 回答
698 浏览

json - 将嵌套的 JSON 从 GCS 导出到电子表格

我有一个从 BQ 导出到 Google Cloud Storage 的嵌套 NDJSON 文件。从那里我想再次在电子表格中将其作为嵌套表打开。

我看到很多 Appscripts 来导入 JSON 文件,但没有一个是用于存储在 GCS 中的文件。

在电子表格中打开数据表的最佳解决方案是什么?

使用 Alex 建议的工具时看到的 csv 文件

这是 NDJSON 示例:

这是csv示例:

0 投票
1 回答
107 浏览

npm - 尝试使用 ndjson-split 拆分文件时出现有效 geojson 错误

我想从我的 geojson 文件中删除所有属性,因此我首先尝试制作一个这样的 ndjson 文件:

但我收到此错误:

我的geojson是一个有效的,它就在这里:https ://gist.github.com/2803media/b52c9078c6c7932396ce6b42d7f0073e

谢谢

0 投票
1 回答
153 浏览

json - 如何在处理 3.4 中加载或导入 url?

我正在尝试将.ndjson文件从 Google Cloud 加载到 Processing 3.4,以便我可以从云中选择一个文件并使用它。

这是我试过的代码:

并得到一个错误,因为 json 对象文本必须以{.