0

我有一个带有 SGML 的 Java 字符串,像这样......

<misspell></misspell><plain>I</plain> <plain>know</plain> <plain>you</plain> <suggestion>ducky</suggestion> <plain>suck</plain> <plain>and</plain> <plain>I</plain> <plain>rocky</plain> <plain>rock</plain>

我如何解析它以获取例如说里面的文本<suggestion> </suggestion>以便让“鸭子”出来?

javax.swing.text.html.parser.Parse 会有帮助吗?或者我只能用它解析 HTML 文档?

4

2 回答 2

1

您显示的字符串不是 HTML,但可以由XML 解析器解析

SAX API是 JDK 的一部分,AFAIK 大多数 XML 解析器都实现了它。

于 2010-07-07T09:45:42.450 回答
1

尝试使用 html 解析器,它们(必然)非常容忍格式错误的标记,并且 html 本质上是基于 SGML 的。

例如http://htmlparser.sourceforge.net/

于 2010-07-07T10:28:09.027 回答