1

我有一个 unicode 字符串。在字符串中,我将字符串中的 '\r' 字符替换为 '<\p>',并将其传递给 BeautifulSoup 进行解析。

如果我在替换后的字符串之后打印,我会看到替换正常。但是当我将字符串传递给 BeautifulSoup 时,它会将其视为 < 和 >。这是为什么 ?

我似乎与编码有关,但不确定是什么。

替换字符串

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')
4

1 回答 1

2

<\p>不是结束标签。斜线则相反:

fileString = fileString.replace('\r', '</p>')  
于 2012-10-07T03:06:52.020 回答