问题标签 [ndjson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1083 浏览

node.js - AWS Lambda Nodejs:从 S3 存储桶获取过去 24 小时内创建的所有对象

我有一个要求,我需要将存储桶中的所有 JSON 文件转换为一个新行分隔的 JSON 以供第 3 方使用。但是,我需要确保每个新创建的新分隔 JSON 仅包含过去 24 小时内收到的文件,以避免一遍又一遍地选择相同的文件。这可以在s3.getObject(getParams, function(err, data)函数内部完成吗?任何有关不同方法的建议表示赞赏

谢谢

0 投票
1 回答
1086 浏览

google-cloud-platform - 存储无效的 JSON 列是 STRING 或在 BigQuery 中跳过它们

我有一个 JSON 数据文件,如下所示

我们知道 BigQuery 将c_nested/invalid.key.according.to.bigquery视为无效的列名。我有大量由 StackDriver 导出到 Google Cloud Storage 的日志数据,其中包含很多无效字段(根据 BigQueryFields must contain only letters, numbers, and underscores, start with a letter or underscore, and be at most 128 characters long).

作为一种解决方法,我试图将值作为字符串存储到key_c(整个 )BigQuery 表中。{"c_nested/invalid.key.according.to.bigquery": "valid_value_though"}

我认为我的表定义如下所示:

当我尝试使用此架构创建表时,出现以下错误:

假设 BigQuery 现在支持它,我想简单地跳过key_c具有以下架构的列:

上面的架构让我至少可以创建一个永久表(用于查询外部数据),但是当我尝试查询数据时,我收到以下错误:

我知道这里描述了一种将每个JSON行原始加载到 BigQuery 的方法 - 就好像它是一个 CSV 一样 - 然后在 BigQuery 中解析,但这会使查询过于复杂。

清理数据是唯一的方法吗?我该如何解决这个问题?

我正在寻找一种方法来跳过为无效字段创建列并直接存储为 STRING 或完全忽略它们。这可能吗?

0 投票
1 回答
661 浏览

php - 使用 php 将 json api 结果以换行符分隔格式保存到 json 文件

我从 api 调用中获取了一个嵌套的 json 对象,我试图将它保存到一个换行符分隔的 json 文件中,以便可以将它导入到 Google Big Query 中。

这是我所拥有的,它将它保存到我的文件中,但仍然没有正确格式化以便 Big Query 导入它。

我也刚刚尝试将 json 保存到文件中,但在尝试导入大查询时出现相同的错误。

0 投票
0 回答
228 浏览

node.js - 带有 AWS lambda 的 ndjson 请求

我使用 AWS lambda 作为我的 ElasticSearch 服务的代理。我在代理对Multi search API的请求时遇到问题。由于此端点接受ndjson形式的有效负载,因此我尝试将以下有效负载作为请求正文和Content-Type as application/x-ndjson. 我尝试了不同的内容类型,但没有用。

此请求因 JSON 语法错误而失败。

此错误是预期的,因为 lambda 试图将请求解析为 JSON。所以很明显,调用没有到达 Lambda 处理函数。如何使 Lambda 函数与 ndjson 一起使用?可能吗?

0 投票
1 回答
1479 浏览

go - 如何使用 Golang 解析 ndjson 文件?

我有一个ndjson(换行符分隔的 JSON)文件,我需要解析它并获取一些逻辑操作的数据。有没有ndjson使用golang解析文件的好方法。下面给出了一个示例 ndjson

0 投票
1 回答
684 浏览

json - 如何在 python 中编写可拆分的 DoFn - 在 apache Beam 中将 json 转换为 ndjson

我在 GCS 中有一个 json 格式的大型数据集,我需要将其加载到 BigQuery 中。问题是 json 数据没有存储在 NdJson 中,而是存储在几个大的 json 文件中,其中 JSON 中的每个键实际上应该是 json 本身中的一个字段。

例如 - 以下 Json:

应该转换成

我正在尝试通过 Google Data Flow 和 Apache Beam 来解决它,但是性能很糟糕,因为 ech “Worker” 必须做很多工作:

我知道这可以通过将其实现为SplittableDoFn以某种方式解决- 但是 Python 中的实现示例并不清楚。我应该如何将此 DoFn 构建为可拆分的,以及如何将其用作管道的一部分?

0 投票
1 回答
726 浏览

json - 使用 fetch 时如何将响应正文从 application/x-ndjson 转换为 application/json?

我正在尝试 Lichess API。我正在尝试导出用户的游戏。根据文档,我可以收到 PGN 或 ndjson 作为响应。

现在这不起作用:

我正在努力寻找如何await response.json()工作。

因为据我了解,我现在需要以某种方式将我的响应(在 ndjson 中)转换为 json,但是如何?

更新 1

我正在尝试使用NPM 包 'can-ndjson-stream',这是从文章中建议的:Streaming Data with Fetch() and NDJSON

在 app.js 我有import ndjsonStream from "can-ndjson-stream";,但我得到错误:

在 Chrome 中这个错误:

Uncaught TypeError: Failed to resolve module specifier "can-ndjson-stream". Relative references must start with either "/", "./", or "../".

index.html 有<script type="module" src="JS/app.js"></script>

不确定如何让 import 语句正常工作。

0 投票
0 回答
268 浏览

r - 如何从 R 中的远程服务器读取 json 文件?

所以我有一个位于我的本地机器上的 json 文件的集合,我正在使用命令读取这些文件

我已将这些文件复制到 linux 服务器(使用 WinSCP),并且我想将它们流式传输到我的 R 会话中,就像我在上面的代码中使用ndjson. 在寻找方法时,我遇到了一种使用方法RCurl,看起来像这样

但这返回了一个错误

但无论哪种方式,我都想避免将我的密码复制到我的 Rscript 中,因为其他人会看到这个脚本。我也遇到了一个建议这个的方法

但是这个命令返回了错误

而且我相信read.table无论如何都会引起我的问​​题。有谁知道我可以将新行分隔的 json 文件从远程服务器读取到 R 会话中?先感谢您!让我知道我是否可以让我的问题更清楚。

0 投票
2 回答
919 浏览

node.js - Elasticsearch 批量 API 发布请求中的换行错误

我正在尝试使用 elasticsearch bulk api 将多条记录插入索引。我的 JSON 看起来像这样:request json

\\n在文档末尾插入了一个新行 ( ),但我仍然得到newline error.

0 投票
0 回答
124 浏览

python - 如何将ndjson数据转换为numpy来提取图像数据?

按照谷歌的涂鸦数据集,我想知道如何从.ndjson文件中获取 numpy 28x28 图像数据(只是图像数据)。

我知道他们还提供了 numpy 版本的数据集,但我面临着与谷歌类似的另一个数据集的类似问题,它只有简化的.ndjson文件。

提前谢谢你。