0

当我检查 RSS 提要时,在浏览器中我可以看到如下文本:

装扮,配上超短裙,露骨,也很随意。

但相同的源代码视图转换为十进制如下:

#30701&#35044&#12289&#36855&#20320&#35033&#12289&#21514&#24102&#35013&#12289&#20154&#23383&#25302&#38795......&#22823&#19

987&#23398&#29983&#30340&#31359&#30528&#25171&#25198&#21450&#28526&#27969&#21697&#21619&#65292&#19968&#30452&#37117&#26159&#26159&#22823&#23478&#35752&#35770&#30340&#2

8909&#38376&#35805&#39064&#12290&

这是由于内容的本地化还是文件以不同的编码保存?我可以看到文件是使用 UTF-8 保存的。

我正在尝试使用 Python 解析 RSS 提要。但解析后,我只得到十进制值,而不是实际字符。

4

4 回答 4

2

并不是源视图将其转换为十进制 - 而是浏览器正在处理实体并将它们转换为相关的非 ASCII 字符。在转换没有终止“;”的实体方面,它可能有点慷慨。

服务器几乎肯定会为您在源视图中看到的内容提供服务。

于 2011-09-15T11:12:49.487 回答
1

出于某种原因,创建提要的工具决定将所有字符转换为其 Unicode 代码点字符串表示形式。确实很奇怪,但只有该工具的作者才能回答。

于 2011-09-15T11:14:01.810 回答
1

它们不只是被页面的作者存储为 HTML 实体吗?

http://tlt.its.psu.edu/suggestions/international/bylanguage/thaichart.html

于 2011-09-15T11:14:10.753 回答
0

这就是浏览器处理这个问题的方式。编写简单的 html 页面,把这个“十进制”放在那里,然后检查你得到了什么。

是的,您可以在 HTML 中使用 UTF-8 字符,但您必须随后设置页面编码。以十进制编码 UTF-8 字符,例如在您的示例中,更安全,因此许多页面更喜欢这样做。它是在 HTML 标准中指定的,所以如果你想手动解析 HTML,你必须能够处理它。

于 2011-09-22T08:06:39.483 回答