我有一个在不同网站上运行的网络爬虫(在这种情况下是中文)。
现在,当我检索数据并将其显示在我的网站上时,汉字最终都变成了垃圾。好吧,我阅读了有关字符编码的信息,我发现 UTF-8 通常是最好的编码。
现在的问题是当我使用 UTF-8 时 - 从 WEBSITE-1 爬取的数据显示正确,但 WEBSITE-2 却没有。
对于 WEBSITE-2,字符编码 gb18030 工作正常。
我的问题是,有没有办法知道网站的字符编码,以便我可以构建通用解决方案?我的意思是我可以在知道使用什么字符编码的本地网站上呈现一个页面。通过这种方式,我可以在后端编码,而不必在前端真正担心打开页面需要什么编码。
现在我有两页,一页是 UTF-8 汉字,一页是 GB18030 汉字。