“ndjson”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1281 浏览

javascript - 如何在 Node.js 中关闭 https 流

我正在.ndjson通过 https 加载文件。我想在读取 100 行文件后关闭它。

但是我尝试关闭流的每一种方式，都会出现相同的错误消息：

并且流在未强制关闭时工作正常，因此与ndjson文件无关。是否可以在请求中间关闭流？

2017-08-29T12:28:05.590

0 投票

1 回答

75 浏览

json - D3 映射的左连接返回 null，这会阻止数据处理的下一步（ndjson-join 或 jq）命令行

我正在州一级进行 D3 映射。这是我在数据处理中遇到的一个问题。比如地图数据是这样的，(dat1.ndjson)

但通常我们掌握的信息并不完整，比如南极洲通常没有信息，但我们在测绘时仍然需要绘制它的轮廓。信息数据就像，（dat2.ndjson）

因此，当我尝试对这两个数据进行左连接时，它将返回 (dat3.ndjson)

这是由

目的是把这个'count'信息连接到map数据上，所以通常我会先在dat1.ndjson中给所有的item赋一个count=0，像这样，（dat11.ndjson）

然后像我之前展示的那样使用这个左连接方法来得到这样的东西，（dat33.ndjson）

但问题来了。如果我使用以下命令将所有值相加，则会由于第三行中的 null 而返回错误。

现在我必须在 R 中进行此数据处理，这需要花费大量时间，因为我需要在 .ndjson 和 .csv 之间进行转换。所以我正在寻找一种更好的方法来做到这一点。我认为可能有一些方法可以使用“ndjson-cli”、“jq”或“awk”和“sed”等。

有人有想法吗？谢谢！:)

E.

json command-line left-join jq ndjson

2017-12-09T04:45:02.917

0 投票

0 回答

165 浏览

r - 遍历文件夹中的多个 .txt 文件，解析 NDJSON 字符串并在 R 中写入 .csv 输出文件

我是目前正在处理一个项目的编码新手，这需要我解析位于 .txt 文件中的 NDJSON 字符串。我有数百个 .txt 文件，每个文件包含多达 100 万个 NDJSON 字符串。我有以下代码，我知道它可以成功解析一个单独的文件（如果我明确说明 .txt 输入文件的名称和 .csv 输出文件的名称）：

在上面的示例中，我只是将目录设置为一个文件夹，并确保文件位于该文件夹中。

我现在想重复这个过程，但我想循环浏览文件夹中的所有文件，而不是手动输入每个文件的名称并调整输出文件。每个文件都包含与特定灾难相关的推文信息，因此我希望能够为每个文件创建逻辑名称，例如Nepal01.txt、Nepal02.txt、HurricaneSandy01.txt 等。我这样说是因为每个文件都很长，所以如果我重命名它们，我想启用这个过程，但保持名称合乎逻辑。出于这个原因，我需要找到一种动态方式来选择所有以 .txt 结尾的文件，并以 .csv 格式动态写入具有相关名称的输出文件，例如，Nepal_reduced01.csv、Nepal_reduced02.csv、HurricaneSandy_reduced01.csv 等。

以下是我迄今为止失败的尝试：

下面是错误消息的图像：

r loops parsing batch-processing ndjson

2018-02-09T22:53:58.993

0 投票

1 回答

596 浏览

sql - 在 SQL Server 2016 中打开 ndJSON 格式

如何在 SQL Server 2016 中打开 ndJSON 格式？我可以使用 JSON 格式打开，但对如何使用 ndJSON 进行操作一无所知。

SQL Server 中是否有特定的函数可以执行此操作，或者是否有其他方法？

JSON 格式：

ndJSON 格式：

sql json sql-server sql-server-2016 ndjson

2018-05-14T21:36:02.057

0 投票

1 回答

494 浏览

python - 如何在 Python 中最好地展平 NDJson 数据

我有一个巨大的 NDJson 格式数据文件 (>400MB)，我喜欢将其展平为表格格式以供进一步分析。

我开始手动迭代各种对象，但有些对象相当深，甚至可能会随着时间而改变，所以我希望有一种更通用的方法。

我确信 pandas lib 会提供一些东西，但找不到任何对我有帮助的东西。此外，我发现的其他几个库似乎没有“完全”提供我所希望的（flatten_json）。这一切似乎还很早。

目前是否有可能没有很好的（快速和简单的）解决方案？

任何帮助表示赞赏

python ndjson

2018-06-10T19:43:02.240

0 投票

1 回答

1418 浏览

r - 读取非常非常大的 NDJSON

我有一个 33GB 的 NDJSON 文件，需要读入 R 中的 data.table。它被压缩成 2GB 的文件，理想情况下我希望将其压缩。

结构并不那么重要，除了（通过导入时jsonlite::stream_in），我需要的数据仅在几个简单的列中。数据的绝大部分权重都保存在list我想尽快丢弃的三列内的 s 中。

我的两个挑战是：如何并行化读入，以及如何限制内存使用（现在我在这个文件上的工作人员正在使用 175GB 内存）？

我现在在做什么：

dt.x <- data.table(flatten(stream_in(gzfile("source.gz"))[, -c(5:7)]))

想法：

也许有一些方法可以忽略 NDJSON 的一部分stream_in？

我可以在gzfile连接之前解析连接，例如使用正则表达式，stream_in以删除多余的数据吗？

我可以readLines在gzfile连接上执行类似操作以读取每个工作人员 100 万行的数据吗？

编辑：如果可能的话，我的目标是让其他用户可以移植并完全保留在 R 中。

r json ndjson

2018-06-25T21:39:15.680

0 投票

1 回答

135 浏览

r - 将 ndjson 导入 R 跳过前 n 行

如何将一个大的ndjson（20GB）文件逐块读入R？

我有一个大数据文件，我想一次读取 1M 行。

目前，我正在使用下面的代码将数据加载到 R 中。

但我不需要将所有数据一起加载。如何将此文件拆分为块以更快地加载？

r ndjson

2018-11-12T20:43:02.900

0 投票

1 回答

698 浏览

json - 将嵌套的 JSON 从 GCS 导出到电子表格

我有一个从 BQ 导出到 Google Cloud Storage 的嵌套 NDJSON 文件。从那里我想再次在电子表格中将其作为嵌套表打开。

我看到很多 Appscripts 来导入 JSON 文件，但没有一个是用于存储在 GCS 中的文件。

在电子表格中打开数据表的最佳解决方案是什么？

使用 Alex 建议的工具时看到的 csv 文件

这是 NDJSON 示例：

这是csv示例：

json google-sheets google-bigquery google-cloud-storage ndjson

2018-11-19T15:05:24.280

0 投票

1 回答

107 浏览

npm - 尝试使用 ndjson-split 拆分文件时出现有效 geojson 错误

我想从我的 geojson 文件中删除所有属性，因此我首先尝试制作一个这样的 ndjson 文件：

但我收到此错误：

我的geojson是一个有效的，它就在这里：https ://gist.github.com/2803media/b52c9078c6c7932396ce6b42d7f0073e

谢谢

npm geojson ndjson

2018-12-06T14:08:45.150

0 投票

1 回答

153 浏览

json - 如何在处理 3.4 中加载或导入 url？

我正在尝试将.ndjson文件从 Google Cloud 加载到 Processing 3.4，以便我可以从云中选择一个文件并使用它。

这是我试过的代码：

并得到一个错误，因为 json 对象文本必须以{.

json processing ndjson

2019-01-23T19:14:11.093

问题标签 [ndjson]

Reference