问题标签 [ndjson]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 如何在 Node.js 中关闭 https 流
我正在.ndjson
通过 https 加载文件。我想在读取 100 行文件后关闭它。
但是我尝试关闭流的每一种方式,都会出现相同的错误消息:
并且流在未强制关闭时工作正常,因此与ndjson
文件无关。是否可以在请求中间关闭流?
json - D3 映射的左连接返回 null,这会阻止数据处理的下一步(ndjson-join 或 jq)命令行
我正在州一级进行 D3 映射。这是我在数据处理中遇到的一个问题。比如地图数据是这样的,(dat1.ndjson)
但通常我们掌握的信息并不完整,比如南极洲通常没有信息,但我们在测绘时仍然需要绘制它的轮廓。信息数据就像,(dat2.ndjson)
因此,当我尝试对这两个数据进行左连接时,它将返回 (dat3.ndjson)
这是由
目的是把这个'count'信息连接到map数据上,所以通常我会先在dat1.ndjson中给所有的item赋一个count=0,像这样,(dat11.ndjson)
然后像我之前展示的那样使用这个左连接方法来得到这样的东西,(dat33.ndjson)
但问题来了。如果我使用以下命令将所有值相加,则会由于第三行中的 null 而返回错误。
现在我必须在 R 中进行此数据处理,这需要花费大量时间,因为我需要在 .ndjson 和 .csv 之间进行转换。所以我正在寻找一种更好的方法来做到这一点。我认为可能有一些方法可以使用“ndjson-cli”、“jq”或“awk”和“sed”等。
有人有想法吗?谢谢!:)
E.
r - 遍历文件夹中的多个 .txt 文件,解析 NDJSON 字符串并在 R 中写入 .csv 输出文件
我是目前正在处理一个项目的编码新手,这需要我解析位于 .txt 文件中的 NDJSON 字符串。我有数百个 .txt 文件,每个文件包含多达 100 万个 NDJSON 字符串。我有以下代码,我知道它可以成功解析一个单独的文件(如果我明确说明 .txt 输入文件的名称和 .csv 输出文件的名称):
在上面的示例中,我只是将目录设置为一个文件夹,并确保文件位于该文件夹中。
我现在想重复这个过程,但我想循环浏览文件夹中的所有文件,而不是手动输入每个文件的名称并调整输出文件。每个文件都包含与特定灾难相关的推文信息,因此我希望能够为每个文件创建逻辑名称,例如Nepal01.txt、Nepal02.txt、HurricaneSandy01.txt 等。我这样说是因为每个文件都很长,所以如果我重命名它们,我想启用这个过程,但保持名称合乎逻辑。出于这个原因,我需要找到一种动态方式来选择所有以 .txt 结尾的文件,并以 .csv 格式动态写入具有相关名称的输出文件,例如,Nepal_reduced01.csv、Nepal_reduced02.csv、HurricaneSandy_reduced01.csv 等。
以下是我迄今为止失败的尝试:
下面是错误消息的图像:
sql - 在 SQL Server 2016 中打开 ndJSON 格式
如何在 SQL Server 2016 中打开 ndJSON 格式?我可以使用 JSON 格式打开,但对如何使用 ndJSON 进行操作一无所知。
SQL Server 中是否有特定的函数可以执行此操作,或者是否有其他方法?
JSON 格式:
ndJSON 格式:
python - 如何在 Python 中最好地展平 NDJson 数据
我有一个巨大的 NDJson 格式数据文件 (>400MB),我喜欢将其展平为表格格式以供进一步分析。
我开始手动迭代各种对象,但有些对象相当深,甚至可能会随着时间而改变,所以我希望有一种更通用的方法。
我确信 pandas lib 会提供一些东西,但找不到任何对我有帮助的东西。此外,我发现的其他几个库似乎没有“完全”提供我所希望的(flatten_json)。这一切似乎还很早。
目前是否有可能没有很好的(快速和简单的)解决方案?
任何帮助表示赞赏
r - 读取非常非常大的 NDJSON
我有一个 33GB 的 NDJSON 文件,需要读入 R 中的 data.table。它被压缩成 2GB 的文件,理想情况下我希望将其压缩。
结构并不那么重要,除了(通过 导入时jsonlite::stream_in
),我需要的数据仅在几个简单的列中。数据的绝大部分权重都保存在list
我想尽快丢弃的三列内的 s 中。
我的两个挑战是:如何并行化读入,以及如何限制内存使用(现在我在这个文件上的工作人员正在使用 175GB 内存)?
我现在在做什么:
dt.x <- data.table(flatten(stream_in(gzfile("source.gz"))[, -c(5:7)]))
想法:
也许有一些方法可以忽略 NDJSON 的一部分stream_in
?
我可以在gzfile
连接之前解析连接,例如使用正则表达式,stream_in
以删除多余的数据吗?
我可以readLines
在gzfile
连接上执行类似操作以读取每个工作人员 100 万行的数据吗?
编辑:如果可能的话,我的目标是让其他用户可以移植并完全保留在 R 中。
r - 将 ndjson 导入 R 跳过前 n 行
如何将一个大的ndjson(20GB)文件逐块读入R?
我有一个大数据文件,我想一次读取 1M 行。
目前,我正在使用下面的代码将数据加载到 R 中。
但我不需要将所有数据一起加载。如何将此文件拆分为块以更快地加载?
json - 将嵌套的 JSON 从 GCS 导出到电子表格
我有一个从 BQ 导出到 Google Cloud Storage 的嵌套 NDJSON 文件。从那里我想再次在电子表格中将其作为嵌套表打开。
我看到很多 Appscripts 来导入 JSON 文件,但没有一个是用于存储在 GCS 中的文件。
在电子表格中打开数据表的最佳解决方案是什么?
这是 NDJSON 示例:
这是csv示例:
npm - 尝试使用 ndjson-split 拆分文件时出现有效 geojson 错误
我想从我的 geojson 文件中删除所有属性,因此我首先尝试制作一个这样的 ndjson 文件:
但我收到此错误:
我的geojson是一个有效的,它就在这里:https ://gist.github.com/2803media/b52c9078c6c7932396ce6b42d7f0073e
谢谢
json - 如何在处理 3.4 中加载或导入 url?
我正在尝试将.ndjson
文件从 Google Cloud 加载到 Processing 3.4,以便我可以从云中选择一个文件并使用它。
这是我试过的代码:
并得到一个错误,因为 json 对象文本必须以{
.