问题标签 [jsonlines]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
json - 一个包含很多 JSON 的文件,这个文件的定义是什么?
我有一个包含许多字典的文件,每一行都有自己唯一的字典,并且这个文件中有很多行。
只是想强调字典没有插入到列表中,这就是它的方式,文件中的每个新行都包含一个字典。
java - 如何修改 spring 服务以生成 jsonl
我有一个服务使用者,他希望我的服务生成以行分隔的 JSONL。如何修改 Jackson 解析器或提供自定义序列化程序,以便将重新调整的对象数组序列化为 JSONL 而不是 JSON。
例如下面的代码
将产生这个 JSON:
但消费者希望:
json - 将 JSONL 转换为 JSON
有没有办法在 Linux 中转换为完整的JSONL
文件深度?我找到了一些基于的方法,但它们不适用于完整的文件深度JSON
JSONL
jq
JSONL
json - 使用jq将json数组转换为jsonl格式
我有这样的json:
并希望将其转换为这种格式:
以方便将其索引到 ElasticSearch 中。(后者称为 'jsonl' 格式)。JQ 是我的首选工具,但我不知道如何做到这一点。谢谢
python-3.x - 努力从流中重新组装 jsonl
我正在尝试从 API 处理 jsonlines,但遇到了 requests.iter_lines() 不及时的问题。我现在必须尝试合并 requests.iter_content(chunk_size=1024*1024)。我正在尝试处理我需要获取不完整的 jsonline [1] 并将其附加到下一个 chunk_size 的逻辑,以便它成为一个完整的。
我目前的尝试是运行一系列 if 语句来检测不受欢迎的状态 [2],然后重建它并继续处理,但我无法在所有可能最终出现的状态下重新组装它。有人有这个问题的深思熟虑的解决方案的例子?
[1]
例子:
第一个块的最后一项:
{'test1':'value1','test2':'value
第二块的第一项:
e2','test3':'value3'}
[2] def不完整处理器(main_chunk):
json - 使用“jq”从另一个 json 文件附加到 json 文件中的数组
我有一个具有以下初始结构的文件“stats.json”
使用 bash/curl 脚本,我每 10 分钟从 api 获取数据并将其保存到“temp.json”
我想合并 temp.json(每 10 分钟更新一次)并填充 stats.json 文件。我试图用“jq”来做,但没有成功。
json - 使用 jq 选择对象时出现意外结果
当我将正文添加到输出列表时,会输出一些错误的名称。我希望它在两个示例中只输出 nfl subreddit 的名称。功能还是错误?我怎样才能只输出 subreddit nfl 的元组?
文件:
代码示例 1,可以正常工作:
代码示例 2,这对我来说是错误的或出乎意料的:
不幸的是,您可以看到作者 403and780 对曲棍球 subreddit 发表了评论,而不是 nfl。
python - 使用 JSONlines 抓取大量数据时保持正确的 JSON 结构
最近,我不得不抓取大量数据,并从使用提要格式“json”更改为“jsonlines”,以避免将其全部打乱和重复。问题是现在我的程序都没有将导出的文件识别为 JSON,因为它删除了开始和结束方括号以及每个项目后的逗号。第一个例子显示了数据的样子,第二个例子是我想要实现的。
有没有办法在仍然使用 JsonLinesItemExporter 的同时手动添加逗号并使其成为一个数组?
我认为与我的爬虫相关的唯一一段代码是我的 yield 关键字,但我很高兴展示完整的代码。我没有使用 PHP 或 MySQL。
非常感谢您提前。
python - 努力使用 jsonlines 解析对象
我无法使用 jsonlines 解析请求的正文。我使用 tornado 作为服务器,这发生在 post() 方法中。我这样做的目的是将请求的主体解析为单独的 JSON,然后使用 jsonlines Reader 对其进行迭代,对每一个进行一些工作,然后将它们推送到数据库。我通过将 utf-8 编码的主体转储到一个文件中解决了这个问题,然后使用:
这对我行得通。我可以遍历整个文件
我只是觉得这是一个不必要的开销,如果我能理解是什么让我不能只使用这段代码,那么可以减少它:
我得到的例外是:
jsonlines.jsonlines.InvalidLineError:行包含无效的 json:期望用双引号括起来的属性名称:第 1 行第 2 列(字符 1)(第 1 行)
我试过在这里搜索这个错误,我发现的只是人们尝试使用格式不正确的 json 的例子,这些 json 有一个引号而不是双引号。对我来说不是这样。我调试了请求,发现从 decode 方法返回的字符串确实有属性和值的双引号。
这是我发送的请求正文的示例(这是 Postman 中的样子):
您可以通过在 post 方法中使用这段简单的代码并发送我通过 Postman 提供的行来重现异常:
作为旁注:邮递员将数据作为文本发送,而不是 JSON。
如果您需要更多信息来回答这个问题,请告诉我。我注意到的一件事是从 decode 方法返回的字符串以一个引号开始和结束。我猜这是因为 JSON 本身中的双引号。它有什么关系吗?一个例子:
谢谢你的帮助!
python - 规范化熊猫中的 json 行
我有一个 json 行文件,其中每一行都有一些我试图(主要)扁平化的结构,因此:
其次pd.concat(thelist2)
上面的语义是正确的,但不太好的是这非常慢,而在没有的情况下运行上面json_normalize
的速度非常快(但做错了)。有没有办法在事后规范化数据帧,或者其他更快的方案?