python - 非英文字符正在转换为十进制

Question

当我检查 RSS 提要时，在浏览器中我可以看到如下文本：

装扮，配上超短裙，露骨，也很随意。

但相同的源代码视图转换为十进制如下：

#30701&#35044&#12289&#36855&#20320&#35033&#12289&#21514&#24102&#35013&#12289&#20154&#23383&#25302&#38795&#46;&#46;&#46;&#46;&#46;&#46;&#22823&#19

987&#23398&#29983&#30340&#31359&#30528&#25171&#25198&#21450&#28526&#27969&#21697&#21619&#65292&#19968&#30452&#37117&#26159&#26159&#22823&#23478&#35752&#35770&#30340&#2

8909&#38376&#35805&#39064&#12290&

这是由于内容的本地化还是文件以不同的编码保存？我可以看到文件是使用 UTF-8 保存的。

我正在尝试使用 Python 解析 RSS 提要。但解析后，我只得到十进制值，而不是实际字符。

score 2 · Accepted Answer

并不是源视图将其转换为十进制 - 而是浏览器正在处理实体并将它们转换为相关的非 ASCII 字符。在转换没有终止“;”的实体方面，它可能有点慷慨。

服务器几乎肯定会为您在源视图中看到的内容提供服务。

score 1 · Accepted Answer

出于某种原因，创建提要的工具决定将所有字符转换为其 Unicode 代码点字符串表示形式。确实很奇怪，但只有该工具的作者才能回答。

score 1 · Accepted Answer

它们不只是被页面的作者存储为 HTML 实体吗？

http://tlt.its.psu.edu/suggestions/international/bylanguage/thaichart.html

score 0 · Accepted Answer

这就是浏览器处理这个问题的方式。编写简单的 html 页面，把这个“十进制”放在那里，然后检查你得到了什么。

是的，您可以在 HTML 中使用 UTF-8 字符，但您必须随后设置页面编码。以十进制编码 UTF-8 字符，例如在您的示例中，更安全，因此许多页面更喜欢这样做。它是在 HTML 标准中指定的，所以如果你想手动解析 HTML，你必须能够处理它。

python - 非英文字符正在转换为十进制

4 回答 4

Related

Reference