1

我正在编写爬虫并获取非英文网站的标题。当我在控制台中打印标题时,会变成这样:

শà§à¦°à§à¦²à¦à§à¦à¦¾à¦° ভালৠসà§à¦à¦¨à¦¾
ফà¦à¦¿à¦°à¦¾à¦ªà§à¦²à§ হাতবà§à¦®à¦¾ বিসà§à¦«à§à¦°à¦£, à¦à¦à¦ ১৬
দà§à¦ বাà¦à¦²à¦¾à¦¦à§à¦¶à¦¿à¦à§ নিà§à§ à¦à§à¦à§ বিà¦à¦¸à¦à¦«
à¦à¦¾à¦®à¦¾à§à¦¾à¦¤ নà§à¦¤à¦¾ সà§à¦²à¦¿à¦®à¦¸à¦¹ দà§à¦à¦¨ à¦à§à¦°à§à¦ªà§à¦¤à¦¾à¦°

我不知道如何从上述字符串中获取正确的文本。

任何想法?

提前致谢。

4

1 回答 1

5

这看起来像是 UTF-8 编码的孟加拉语文本,其中散布着 HTML 字符引用,被错误地解释为 windows-1252 字符。也可能是其他任何事情,真的。

在抓取网页时,您应该大致按照浏览器和一般搜索引擎在决定字符编码时所做的事情。这远非微不足道。在 HTML5 RC 中,第 8.2.2.1 节确定字符编码是描述该过程的尝试。

于 2013-03-08T08:32:50.163 回答