我正在使用 urllib2 获取网站的源代码,然后我使用正则表达式过滤 bas64 编码字符串,并对其进行迭代,将匹配项传递给函数:
def Base64Decoder(match): curMatch = match.group().decode('utf-8', errors='ignore') decoded = base64.b64decode(curMatch) return decoded
当我打印出 Base64Decoder 的返回值时,一些字符是错误的,如何正确过滤掉它们?我不想看到像下面这样的乱码:
网站的编码是utf-8,但urllib的返回值似乎是unicode?
编辑:源代码看起来像这样(原始)
<td style="text-align:left; font-weight:bold;"><script type="text/javascript">document.write(Base64.decode("MzEuMTMuMTcuMjE0"))</script></td>
并且过滤后的字符串被Base64.decode("MzEuMTMuMTcuMjE0
条带化为MzEuMTMuMTcuMjE0