0

我正在尝试解析格式类似于 Xml(但不是 XML 格式)的文档,它适用于所有内容,除非我遇到 &ldquo.html 之类的 HTML 代码。然后我得到一个错误,一切都崩溃了。我该如何解决这个问题?

编辑这是错误及其发生的行:

03-25 17:56:26.540: W/System.err(21265): org.apache.harmony.xml.ExpatParser$ParseException: 在第 68 行,第 354 列:未定义的实体

<F_S_INGREDIENTS>淡色艾尔麦芽(经过精心修饰,适合单温浸泡糖化);美国啤酒花;美国酵母可以提供干净或略带果味的外观。通常是全麦芽,但在较低温度下捣碎以实现高衰减。水的特性从软到中度硫酸盐不等。带有明显黑麦字符(“RyePA”)的版本应输入专业类别。</F_S_INGREDIENTS>

我已将其范围缩小为“RyePA”</p>

4

1 回答 1

1

&ldquo是有效的 HTML 实体,但不是有效的 XML 实体。您将无法使用现有的 XML 解析器对其进行解析。

defineEntityReplacement ()方法看起来很有希望。如果你不能让它为你工作,你可以简单地将字符串读入内存(如果它不是太错误的话),然后在你把它交给解析器之前,自己替换文本,

String s = xml.replaceAll("&ldpos;", "\"").replaceAll("&rdpos;", "\"");
于 2012-03-25T21:34:25.580 回答