我正在运行以下代码来获取 html 文件的打开和关闭标签的美化版本。
from bs4 import BeautifulSoup
import csv
soup = BeautifulSoup(open("NATI_front_page.htm"))
print soup.originalEncoding
print (soup.prettify())
但是我得到这个错误。
File "front_page_pretty.py", line 8, in <module>
File "C:\Python27\lib\encodings\cp437.py", line 12, in encode
return codecs.charmap_encode(input,errors,encoding_map)
nicodeEncodeError: 'charmap' codec can't encode character u'\u2122' in position 61769: character maps to <undefined>
我想要得到的是这样的:
<html>
<body>
<h1>Hello world</h1>
</body>
</html>
我是 python、漂亮的汤和 unicode 的新手。我在堆栈溢出中查看了这样的问题,但我没有看到任何问题,所以我发布了这个问题。我将如何解决这个问题?提前感谢您的帮助。