1

可能重复:
Java:如何在 Java 中解码 HTML 字符实体,如 HttpUtility.HtmlDecode?

我有一些以这种格式编码的特殊字符的字符串数据&#039

在这种情况下,编码是一个 ' 符号,一个单引号。

所以例子"the citizen&#039s home"应该看起来像"the citizen's home"但它没有。

不幸的是,这不是这样解释的,我需要为这些东西解析我的所有字符串并转换它们

第一:那个格式叫什么,这将帮助我找到一种转换方法

第二:你知道修复我的琴弦的方法吗?

4

1 回答 1

3

无需重新发明轮子:Apache Commons Lang 的StringEscapeUtils.unescapeHtml4(String)就是您想要的。

将包含实体转义的字符串取消转义为包含与转义对应的实际 Unicode 字符的字符串。支持 HTML 4.0 实体。

例如,字符串"&lt;Fran&ccedil;ais&gt;"将变为 "<Français>"

如果一个实体无法识别,则将其单独放置,并逐字插入结果字符串中。例如"&gt;&zzzz;x"将成为">&zzzz;x".

于 2012-07-09T18:12:04.340 回答