我在使用原始编码时无法正确显示已保存文件的问题。
我正在下载一个网页,在其中搜索我想要的内容,然后将该内容写入文件。
网站上的编码是“iso-8859-1”左右,chrome 和美丽的汤告诉我,当在原始网站上使用该编码查看时,它看起来很完美。
当我下载页面并尝试查看它时,我最终得到了奇怪的字符(HTML 实体?),如下所示:
“ , ’
如果我在查看保存的页面时手动将 Chromes 编码设置为“Utf-8”,它会正常显示,如果我将其设置为“Utf-8”,原始页面也是如此。
我不知道该怎么做,我会在将文本写入文件之前更改编码,但是当我尝试这样做时会出现 ascii 错误。
这是一个示例页面(可能的成人内容):
http://original.adultfanfiction.net/story.php?no=600106516
我用来从页面获取文本的代码:
site = requests.post(url, allow_redirects=False)
html = site.text
soup = BeautifulSoup(html)
rawStory = soup.findAll("td",{"colspan" : '3'})
story = str(rawStory)
return story
我将 ResultSet 转换为字符串,以便可以将其写入文件,我不知道这是否是问题的一部分,如果我在请求它之后将 html 打印到控制台但在对其执行任何操作之前它显示在控制台中也不正确。