python - BeautifulSoup 在 BeautifulSoup 中处理 '<' '>' html 标签

Question

我有一个 unicode 字符串。在字符串中，我将字符串中的 '\r' 字符替换为 '<\p>'，并将其传递给 BeautifulSoup 进行解析。

如果我在替换后的字符串之后打印，我会看到替换正常。但是当我将字符串传递给 BeautifulSoup 时，它会将其视为 < 和 >。这是为什么？

我似乎与编码有关，但不确定是什么。

替换字符串

fileString.encode('utf-8')  
fileString = re.sub('\r', "/<\p>", fileString)  
fileString.encode('utf-8')

htmlTag = BeautifulSoup(fileString, from_encoding='utf-8')

score 2 · Accepted Answer

2

<\p>不是结束标签。斜线则相反：

fileString = fileString.replace('\r', '</p>')

于 2012-10-07T03:06:52.020 回答

python - BeautifulSoup 在 BeautifulSoup 中处理 '<' '>' html 标签

1 回答 1

Related

Reference