在对 Stack Overflow 进行了更多研究之后,我发现了一个多年前发布的解决方案。
解码 URL 中的转义字符
这是我用来解决编码问题的代码:
# This section of code reformats a href with URL encoding
def unquote(url):
return re.compile('%([0-9a-fA-F]{2})',re.M).sub(lambda m: chr(int(m.group(1),16)), url)
# URL with encoding - https://www.somedomainname.com/pubs/retrieve.pl?doc=some%2Ddocument%2Dname.pdf
print (unquote('https://www.somedomainname.com/pubs/retrieve.pl?doc=some%2Ddocument%2Dname.pdf'))
# Output - https://www.somedomainname.com/pubs/retrieve.pl?doc=some-document-name.pdf
现在我已经重新格式化了这个 URL,我可以使用 pgcrypto 扩展模块的摘要函数使用 SHA-256 哈希进行编码。
encode(digest('https://www.somedomainname.com/pubs/retrieve.pl?doc=some-document-name.pdf','sha256')
特别注意:我在散列 URL 之前从 URL 中删除了 href 协议,因为它可以防止重复,这是我关心的问题。