1

那里的所有指南都告诉我如何从文本中删除 HTML 标签以提取它们之间的文本。我所追求的是提取 HTML 标记内的数据。

例如

如果我有一个字符串:

 "<FONT SIZE="5">Hello World</FONT>"

我想获取字体大小信息来更新其他变量。我该怎么做?

4

4 回答 4

2

为此,我已经多次使用jsoup 。这是一个宽松的 HTML 解析器。当心尝试将其解析为“标准”XML,因为 XML 解析本质上是严格的,如果页面不符合 XML 标记规范(很少有 HTML 页面这样做),则会失败。

于 2012-09-28T06:47:24.553 回答
1

您可以通过使用用于 HTML 解析的可用 Java 库之一来解决此问题,例如TagSoup

于 2012-09-28T06:42:42.357 回答
0

您可以使用像jerichoHTML这样的库,它使您能够搜索 HTML 标签及其属性,或者您自己构建一些 DOM。

于 2012-09-28T06:42:43.840 回答
-1

看看这个: http ://en.wikipedia.org/wiki/Java_API_for_XML_Processing 如果您解析 HTML,您应该能够从 DOM 树中提取值。

于 2012-09-28T06:41:53.340 回答