问题标签 [ndjson]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
107 浏览

python - 从 ndjson 中提取全部(或替换)无效

我正在读取每行一个 JSON 对象的文件(ndjson)

这是数据框内容的 2 行示例(删除列后)

它包含数百万行,我想在特定列(名为 meilleurePosition)中提取方括号之间的一个地理坐标。预期的输出是

我尝试使用 extractall 提取坐标或替换所有其他不需要的字符,或者提取不匹配

使用替换,或 str.replace 不起作用

即使没有正则表达式类型也不起作用

我试图找出为什么这根本不起作用。

  • 列类型是“对象”(这显然很好,因为这是一个字符串)
  • 使用 inplace=True 而不复制数据框会导致类似的结果

为什么我不能操作此列,是因为其中的特殊字符吗?如何以良好的格式获得这些坐标?

好的,经过更多调查,该列包含一个嵌套的字典,这就是它不起作用的原因 这个答案帮助了我很多 python pandas 使用带有正则表达式的地图 然后使用以下代码创建一个具有预期坐标的新列

0 投票
1 回答
1729 浏览

python - Python中上传文件的进度条

我想将一个大文件上传.ndjson到 Python。有没有办法添加进度条以便我知道上传了多少文件?

这是上传文件的方式。代码很好,因为当我将文件分成 100 份时,我可以一份一份上传。但是有没有办法添加一个进度条,以便我可以一次上传文件并查看上传进度?

PS。我没有考虑gui,我有tqdm进度条。我在想这样的事情,这样我就可以在控制台中看到进度

0 投票
1 回答
75 浏览

r - 如何导入多个 ndjson 文件到 r-as-a-dataframe?

我需要打开 100 个 ndjson 大文件(具有相同的列),我已经准备了一个脚本来应用到每个文件,但我不想重复这 100 次!

使用 ndjson::stream_in ,我只能将 1 个 ndjson 文件作为数据框打开到 R 中

我尝试了打开多个 csv 文件并将它们合并到 1 个 dafatframe 中的过程,但它不适用于 ndjson 文件:(

我还试图找到一个将 ndjson 文件转换为 csv 的包……但没有找到。

任何想法?

0 投票
2 回答
117 浏览

python - Lambda - Python - CSV 到 NDJSON - 无法转储大文件

我正在研究一个 lambda,它将存储在 Bucket-A(source) 中的 CSV 文件转换为 NDJSON 并将其移动到 Bucket-B(destination)

下面的逻辑对于小文件可以正常工作,但我的 CSV 文件预计是超过 200 MB,有些大约 2.5GB,即使 lambda 设置为最大超时,此逻辑也会超时。

我在看一篇文章,说的是使用 lambda tmp 空间直接将信息写入/附加到文件中,该文件可以上传到 S3,但 tmp 空间的最大大小约为 ~500 MB

感谢您通读。
非常感谢任何解决此问题的帮助。

0 投票
1 回答
174 浏览

ruby - 覆盖宝石轨道中的方法/变量

我正在尝试找到一种方法来覆盖 rails gem 中的变量actionpack/http/parameters.rb。我必须处理ndjson流,而 rails 中间件无法处理ndjson。它用ActiveSupport::JSON.decode

这是下面代码的来源

尝试解析 ndjson 时出现此错误

我的目标是覆盖解析器以允许它解码 ndjson... 可能使用split(\n)而不是当前的ActiveSupport::JSON.decode.

到目前为止,我已经尝试在lib/文件夹中创建一个文件并使用以下代码,但它似乎没有进行覆盖。我如何在没有猴子补丁的情况下做到这一点

更新:

我尝试的第二种方法:

不幸的是,它一直警告我该常量已经定义。

0 投票
1 回答
131 浏览

python - 将嵌套的 JSON streamind 数据转换为 ndjson

我目前正在处理 Twitter 流数据,我想使用 python 将嵌套的 JSON 响应转换为 ndjson。我看到了一些使用示例,json.normalize但只是将其分离到一个级别,并且我的输出具有更深的级别。我是 JSON 新手,并尝试搜索任何示例但没有找到任何示例。这是我的流输出的样子: 流式 Twitter 响应

我想将 JSON 展平为 ndjson,以便我可以隔离要过滤以进行分析的列。

谢谢, 赫里希凯什

0 投票
1 回答
488 浏览

http - 如何获取 ndjson 响应流

我正在尝试连接到 http API。此 API 使用 ndjson 响应,即换行符分隔的 json 字符串。在我全部下载它们之前,我需要一一使用这些行(实际上甚至在服务器知道它将在未来的行上输出什么之前)。在 Python 中,我可以通过以下方式实现:

它就像魅力一样。

我希望在 Nim 中完成相同的效果,但程序会阻塞。例如,我尝试仅加载响应的第一行:

但没有运气 - 也就是说,程序永远不会回声。我也尝试过streams.lines迭代器,但这也没有帮助。

是否有一些类似于 Python 片段的习语可以让我轻松地逐行使用 http 响应流?

0 投票
1 回答
505 浏览

javascript - 将 ndjson 转换为 json 用于 HTML 表

我想知道是否可以从此 API 转换 ndjson 数据:https ://lichess.org/api/team/overberg-chess-group/users并将其转换为 HTML 表。我发现了一些将普通 json 转换为 html 表而不是 ndjson 的 javascript 片段。任何帮助,将不胜感激

0 投票
2 回答
909 浏览

json - 使用 BigQueryToCloudStorageOperator 导出为 JSON

在此处输入图像描述

当我手动使用 BigQuery 控制台时,我可以看到将表导出到 GCS 时的 3 个选项是CSVJSON (Newline delimited)Avro

使用 Airflow,当使用操作符时,为了将数据传输到 GCS,BigQueryToCloudStorageOperator传递给的正确值是什么?是不是很简单?我在网上看到的所有示例都用于use ,从不用于 JSON,所以我不确定这里的正确值是什么。我们的用例需要 JSON,因为 DAG 中的第二个任务(将数据传输到 GCS 之后)是然后将 GCS 中的数据加载到我们的 MongoDB 集群中。export_formatJSON (Newline delimited)JSONBigQueryToCloudStorageOperatorexport_format='CSV'mongoimport

0 投票
1 回答
273 浏览

python - 如何在 Python 中将 ndjson 文件转换为 csv 文件?

我目前的文件加载如下:

但是,我想将此文件转换为 Python 中的 csv,并且想知道如何执行此操作?谢谢