我认为这一定是一个错误,所以我在这里发布了一个错误报告。另一方面,我可能会遗漏一些东西,所以我需要再看一下代码。
问题是,当我使用 .xhtml 文件的内容初始化 BeautifulSoup 时,xml 定义的末尾会出现两个问号。
你能重现这个问题吗?有没有办法避免它?我是否缺少函数、方法、参数或其他东西?
Edit0:它是 Python 2.x 上的 BeautifulSoup 4。
Edit1:为什么要投票?
问题:
<?xml version="1.0" encoding="UTF-8"??>
终端输出:
>>> from bs4 import BeautifulSoup as bs
>>> with open('example.xhtml', 'r') as f:
... txt = f.read()
... soup = bs(txt)
...
>>> print txt
<?xml version="1.0" encoding="UTF-8"?>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="utf-8"/>
</head>
<body>
</body>
</html>
>>> print soup
<?xml version="1.0" encoding="UTF-8"??>
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="utf-8"/>
</head>
<body>
</body>
</html>