html - 从 HTML 到 XHTML 的转换会更改欧元符号，从而阻止正确的 XML 解析

Question

我正在从 HTML 文件中提取信息，方法是使用 Java 中的 SAX 对其进行解析。解析程序给了我，它已经在使用 SAX，所以我想保持这种方式。我做的是以下内容：

我从网站获取 HTML 文件
使用 JTidy 库将其转换为有效的 XML。然而，这个库将所有€符号转换为“â‚¬”--->我得到了 fileXHTML
我将文件 XHTML 提供给解析库，因此我可以提取我想要的数据（编写处理程序、函数 startElement()、characters() 和 endElement()。

问题：使用欧元符号的新字符串，解析库将无法运行。我收到消息：“实体 acirc 已被引用但未声明”

我只是希望我的欧元符号不成问题。我该如何整理我的东西？

感谢大家，

score 1 · Accepted Answer

您遇到的问题是编码问题之一。

管道中某处的某个工具正在破坏编码，然后该错误被向前传递，â在您的输出中创建一个。

从外观上看，该网站使用的是 UTF-8（也应该如此），但编码要么被错误声明，要么声明被忽略。

是否是导致此问题的工具链中的工具之一，或者是否是工具的滥用，尚不完全清楚。

score 0 · Accepted Answer

0

使用 HTML 数字而不是实际的欧元符号

于 2013-10-21T11:22:47.723 回答

2 回答 2