33

我正在使用 uuid.uuid1() 为我的所有 MongoDB 文档分配一个 GUID。我想要一种可以派生 11 个字符、唯一、区分大小写的类似 YouTube 的 ID 的方法,例如

1_XmY09uRJ4 

来自 uuid 生成的十六进制字符串,看起来像

ae0a0c98-f1e5-11e1-9t2b-1231381dac60

我希望能够动态地将缩短的 ID 与十六进制匹配,反之亦然,而无需在数据库中存储另一个字符串。有没有人有一些示例代码或者可以指出可以做到这一点的模块或公式的方向?

4

3 回答 3

64

将底层字节转换为 base64 值,去除=填充和换行符。

您可能希望使用该base64.urlsafe_b64encode()函数来避免使用/and +(_-改为使用),因此生成的字符串可以用作 URL 路径元素:

>>> import uuid, base64
>>> base64.urlsafe_b64encode(uuid.uuid1().bytes).rstrip(b'=').decode('ascii')
'81CMD_bOEeGbPwAjMtYnhg'

相反:

>>> uuid.UUID(bytes=base64.urlsafe_b64decode('81CMD_bOEeGbPwAjMtYnhg' + '=='))
UUID('f3508c0f-f6ce-11e1-9b3f-002332d62786')

要将其转换为通用函数:

from base64 import urlsafe_b64decode, urlsafe_b64encode
from uuid import UUID

def uuid2slug(uuidstring):
    return urlsafe_b64encode(UUID(uuidstring).bytes).rstrip(b'=').decode('ascii')

def slug2uuid(slug):
    return str(UUID(bytes=urlsafe_b64decode(slug + '==')))

这为您提供了一种以更紧凑的形式表示 16 字节 UUID 的方法。进一步压缩会丢失信息,这意味着您无法再次将其解压缩为完整的 UUID。16 个字节可以表示的所有值都不会小于 22 个 base64 字符,每三个字节的输入需要 4 个字符,每个字符编码 6 位信息。

因此,YouTube 的唯一字符串不是基于完整的 16 字节 UUID,它们的 11 个字符 id 可能存储在数据库中以便于查找并基于较小的值。

于 2012-09-04T20:30:02.833 回答
2

对于那些专门寻找一种以 url 安全的方式缩短 uuid 的方法的人来说,@MartijnPieters的真正有用的答案可以简化一些,使用该base64模块来处理不是 url 安全的字符,类似于@okoboko对那个答案的评论(没有一些不必要的位)。

import base64
import uuid

# uuid to b64 string and back
uuid_to_b64str = base64.urlsafe_b64encode(uuid.uuid1().bytes).decode('utf8').rstrip('=\n')
b64str_to_uuid = uuid.UUID(bytes=base64.urlsafe_b64decode(f'{uuid_to_b64str}=='))

# uuid string to b64 string and back
uuidstr_to_b64str = base64.urlsafe_b64encode(uuid.UUID(str(uuid.uuid1())).bytes).decode('utf8').rstrip('=\n')
b64str_to_uuidstr = str(uuid.UUID(bytes=base64.urlsafe_b64decode(f'{uuidstr_to_b64str}==')))
于 2018-11-29T16:18:46.907 回答
1

您可以查看 Python 的base64模型。GUID 本质上是数字的 base-16 表示,您可以去掉连字符,从 base 16 解码,然后编码到 base 64。反过来需要从 base 64 解码,在 base 16 中编码,然后插入连字符在适当的地方。

于 2012-09-04T20:29:21.140 回答