我有一个 unicode 字符串。在字符串中,我将字符串中的 '\r' 字符替换为 '<\p>',并将其传递给 BeautifulSoup 进行解析。
如果我在替换后的字符串之后打印,我会看到替换正常。但是当我将字符串传递给 BeautifulSoup 时,它会将其视为 < 和 >。这是为什么 ?
我似乎与编码有关,但不确定是什么。
替换字符串
fileString.encode('utf-8')
fileString = re.sub('\r', "/<\p>", fileString)
fileString.encode('utf-8')
htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')