2

我正在为 Mongo 中的所有文档添加一个值为 uuid.uuid1()(来自 python uuid 模块)的“GUID”键。我注意到它们不是作为字符串存储的,而是作为BSON::Binary类型存储的。我已经做了一些谷歌搜索,但我仍然不明白这个序列化的目的/优势是什么。有人可以解释吗?我应该在存储之前将 uuid.uuid1() 转换为字符串吗?如何通过 db.myCol.find({ 'GUID' : aString }) 之类的 GUID 值使用字符串来查找()?

4

1 回答 1

5

Python 的默认序列化在BSON 规范uuid中使用UUID二进制表示,因为这确保了范围查询的一​​致排序,并且还使用更少的数据/索引存储。

例如,这三个字符串在十六进制中是等价的:

5d78ad35ea5f11e1a183705681b29c47
5D78AD35EA5F11E1A183705681B29C47
5d78ad35ea5f11e1A183705681B29C47

..但有不同的排序顺序作为字符串:

> db.uuidsort.find().sort({_id:1})
{ "_id" : "5D78AD35EA5F11E1A183705681B29C47" }
{ "_id" : "5d78ad35ea5f11e1A183705681B29C47" }
{ "_id" : "5d78ad35ea5f11e1a183705681b29c47" }

比较 bson 大小:

> db.uuidtest.find()
{ "_id" : BinData(3,"XXitNepfEeGhg3BWgbKcRw==") }
{ "_id" : "5d78ad35ea5f11e1a183705681b29c47" }

> Object.bsonsize(db.uuidtest.findOne({_id: BinData(3,"XXitNepfEeGhg3BWgbKcRw==")}))
31

> Object.bsonsize(db.uuidtest.findOne({_id: "5d78ad35ea5f11e1a183705681b29c47"}))
47

如果您确实想作为字符串插入,您可以使用UUID.hex来获得等效的 32 个字符的字符串:

>>> db.uuidtest.insert({'_id': uuid.hex})
'5d78ad35ea5f11e1a183705681b29c47'

如果要从 Python 中按字符串查找 UUID,可以使用uuid.UUID方法:

>>> db.uuidtest.find_one({'_id':uuid.UUID('5d78ad35ea5f11e1a183705681b29c47')})
{u'_id': UUID('5d78ad35-ea5f-11e1-a183-705681b29c47')}

如果你想从mongoshell 中通过字符串查找 UUID,有一个UUID()助手:

> db.uuidtest.find({_id:UUID('5d78ad35ea5f11e1a183705681b29c47')})
{ "_id" : BinData(3,"XXitNepfEeGhg3BWgbKcRw==") }

注意:还有一些其他 UUID 子类型可用于与其他驱动程序版本的互操作性,如bson.binary 的 API 文档中所述

于 2012-08-20T02:09:58.630 回答