我正在从 HTML 文件中提取信息,方法是使用 Java 中的 SAX 对其进行解析。解析程序给了我,它已经在使用 SAX,所以我想保持这种方式。我做的是以下内容:
- 我从网站获取 HTML 文件
- 使用 JTidy 库将其转换为有效的 XML。然而,这个库将所有€符号转换为“€”--->我得到了 fileXHTML
- 我将文件 XHTML 提供给解析库,因此我可以提取我想要的数据(编写处理程序、函数 startElement()、characters() 和 endElement()。
问题:使用欧元符号的新字符串,解析库将无法运行。我收到消息:“实体 acirc 已被引用但未声明”
我只是希望我的欧元符号不成问题。我该如何整理我的东西?
感谢大家,