问题标签 [jsonlines]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
92 浏览

python - 将 JSON 输出从数据库读取到 PySpark

我正在尝试将 SQL Server 数据库中的一些输出读入 PySpark。

数据格式如下:

注意:为简洁起见,我只包含了几条记录

然后,我使用以下(简单)代码将其读入 PySpark:

我得到以下输出:

出于某种原因,我的代码只读取第一组记录,而不读取第二组记录?

有人可以告诉我如何将所有数据读入 PySpark 吗?我有一个非常大的文件,其中以这种格式存储了数百万条记录。

谢谢。

0 投票
1 回答
5727 浏览

python - 提取我的 .json.gz 文件时,向其中添加了一些字符 - 该文件无法存储为 json 文件

我正在尝试解压缩一些.json.gz文件,但gzip向其中添加了一些字符,因此使其对 JSON 不可读。

您认为是什么问题,我该如何解决?

如果我使用7zip等解压软件解压文件,这个问题就消失了。

这是我的代码:

这是我得到的错误:

我使用了这段代码:

并意识到文件以b'(如下所示)开头:

我认为b'这是使该文件无法用于下一阶段的原因。你有什么办法可以去掉b'?这个压缩文件有数百万个,我不能手动这样做。

我在以下链接中上传了这些文件的示例, 只是几个 json.gz 文件

0 投票
1 回答
556 浏览

json - golang yaml 对 jsonlines 的支持

我一直在尝试让 go yaml 包解析带有 jsonlines 条目的文件。

下面是一个简单的示例,其中包含要解析的三个数据选项。

  • 选项一是多文档 yaml 示例。两个文档都可以解析。

  • 选项二是两个 jsonline 示例。第一行解析正常,但第二行被遗漏了。

  • 选项三是两个 jsonline 示例,但我在两者之间放置了 yaml 文档分隔符,以强制解决问题。这两个解析都可以。

通过阅读 yaml 和 json 规范,我相信第二个选项,多个 jsonlines,应该由 yaml 解析器处理。

我的问题是:

  • YAML 解析器应该处理 jsonlines 吗?
  • 我是否正确使用 go yaml 包?

0 投票
1 回答
197 浏览

angular - 如何解决在 Angular2 应用程序中使用双簧管使用 API 的 CORS 错误?

我有返回如下数据的 API:

我正在尝试用双簧管阅读这篇文章,但没有成功。这个怎么做?使用以下代码,我在这个问题的结尾出现错误:

从源“ http://localhost:4200 ”访问“ http://localhost:19100/pn/api/v1/fetch?cgid=22&north=6853000.0&east=24505000&south=6850000.0&west=24500000.0 ”的 XMLHttpRequest已被阻止CORS 策略:请求的资源上不存在“Access-Control-Allow-Origin”标头。[ http://localhost:4200/main]

当我使用 chrome 标头获取时,如下所示:

0 投票
2 回答
360 浏览

angular - 如何在Angular2应用程序的双簧管节点事件中匹配每个新行分隔的json对象?

我有返回如下数据的 API:

使用这样的代码:

我们来节点回调不是针对每一行,而是针对每个单独的值。即row的值是第1次“点”,第2次817315,第3次141,以此类推。

我的目标是让每行上的 json 对象被读入一个对象。

我问了类似的问题,但因为第一个问题是 api 服务 CORS 问题,所以它变成了 CORS 问题,我据此重新命名。

0 投票
2 回答
169 浏览

json - 重塑 jq 嵌套文件并制作 csv

我一整天都在努力解决这个问题,我想转向一个 csv。

它代表隶属于英国公司大楼 API 中编号为“OC418979”的公司的官员。

我已经将 json 截断为在“项目”中仅包含 2 个对象。

我想得到的是这样的csv

有两个额外的复杂性:有两种类型的“官员”,有些是人,有些是公司,所以并非所有关键人物都出现在另一个人身上,反之亦然。我希望这些条目为“空”。第二个复杂性是那些嵌套对象,如“名称”,其中包含一个逗号!或地址,其中包含几个子对象(我想我可以在 pandas 中展平)。

我一直在做的是创建新的 json 对象来提取我需要的字段,如下所示:

但是查询运行了几个小时——我相信有更快的方法。

现在我正在尝试这种新方法 - 创建一个以公司编号为根的 json,并将其官员列表作为参数。

0 投票
1 回答
205 浏览

json - jq 过滤器将 jsonlines 转换为单个 json 映射

输入:

想要的输出(不用担心可能重复的键):

非常感谢!

0 投票
1 回答
302 浏览

python - 如何使用熊猫解析 jsonlines 文件

我是 python 新手,并试图从包含数百万行的文件中解析数据。试图去老学校使用 excel 解析它,但它失败了。如何有效地解析信息并将其导出为 excel 文件,以便其他人阅读?

我尝试使用其他人提供的此代码,但到目前为止没有运气

0 投票
2 回答
4327 浏览

java - Java - 从 S3 对象中逐行读取(JSON)数据

我有一个包含 JsonL 行的 S3 对象。我想在Java中逐行读取这个对象,这样我就可以递归地将每一行(即每个json)解析为一个POJO,并最终将对象内容转换为一个POJO列表。

据我了解,AmazonS3.getObject().getObjectContent()将流返回到对象的内容。我的下一步是读取一行并将其转换为字符串,然后我可以将其解析为 POJO。我不确定如何对此进行操作InputStream以继续获取字符串格式的下一行。

样本数据 :

0 投票
2 回答
1382 浏览

python - 如何从 jsonline 文件的每一行中提取元素?

我有一个 jsonl 文件,其中每行都包含一个句子和在该句子中找到的标记。我希望从 JSON 行文件的每一行中提取标记,但我的循环只返回最后一行的标记。

这是输入。

我尝试运行以下代码:

实际结果:

[('This', 0), ('is', 1), ('the', 2), ('first', 3), ('sentence', 4), ('.', 5)]

结果是我想要得到的:

在此处输入图像描述

附加问题

一些标记包含“标签”而不是“id”。我怎么能把它合并到代码中?一个例子是: