所以我有大量来自 MongoDB 转储的 .bson。我在命令行上使用bsondump,将输出作为标准输入传送到 python。这成功地从 BSON 转换为“JSON”,但它实际上是一个字符串,并且看似不合法的 JSON。
例如,传入行如下所示:
{ "_id" : ObjectId( "4d9b642b832a4c4fb2000000" ),
"acted_at" : Date( 1302014955933 ),
"created_at" : Date( 1302014955933 ),
"updated_at" : Date( 1302014955933 ),
"_platform_id" : 3,
"guid" : 72106535190265857 }
我相信是Mongo Extended JSON。
当我读到这样一行并执行以下操作时:
json_line = json.dumps(line)
我得到:
"{ \"_id\" : ObjectId( \"4d9b642b832a4c4fb2000000\" ),
\"acted_at\" : Date( 1302014955933 ),
\"created_at\" : Date( 1302014955933 ),
\"updated_at\" : Date( 1302014955933 ),
\"_platform_id\" : 3,
\"guid\" : 72106535190265857 }\n"
这仍然是<type 'str'>
。
我也试过
json_line = json.dumps(line, default=json_util.default)
(请参阅 pymongo json_util - 垃圾邮件检测阻止第三个链接)似乎输出与上面的转储相同。负载给出错误:
json_line = json.loads(line, object_hook=json_util.object_hook)
ValueError: No JSON object could be decoded
那么,如何将 TenGen JSON 字符串转换为可解析的 JSON?(最终目标是将制表符分隔的数据流式传输到另一个数据库)