0

我正在从 HTML 文件中提取信息,方法是使用 Java 中的 SAX 对其进行解析。解析程序给了我,它已经在使用 SAX,所以我想保持这种方式。我做的是以下内容:

  • 我从网站获取 HTML 文件
  • 使用 JTidy 库将其转换为有效的 XML。然而,这个库将所有€符号转换为“€”--->我得到了 fileXHTML
  • 我将文件 XHTML 提供给解析库,因此我可以提取我想要的数据(编写处理程序、函数 startElement()、characters() 和 endElement()。

问题:使用欧元符号的新字符串,解析库将无法运行。我收到消息:“实体 acirc 已被引用但未声明

我只是希望我的欧元符号不成问题。我该如何整理我的东西?

感谢大家,

4

2 回答 2

1

您遇到的问题是编码问题之一。

管道中某处的某个工具正在破坏编码,然后该错误被向前传递,â在您的输出中创建一个。

从外观上看,该网站使用的是 UTF-8(也应该如此),但编码要么被错误声明,要么声明被忽略。

是否是导致此问题的工具链中的工具之一,或者是否是工具的滥用,尚不完全清楚。

于 2013-10-21T11:25:09.977 回答
0

使用 HTML 数字而不是实际的欧元符号€

于 2013-10-21T11:22:47.723 回答