2

如何从字符串中的 HTML 标记中去除所有属性,使用 Java 的“alt”和“src”除外?

更进一步..如何从字符串中的所有“src”属性中获取内容?

:)

4

2 回答 2

3

你可以:

  • 实现一个SAX 解析器
  • 使用DOM 解析器构建一个文档,遍历并修剪它,然后转换回 HTML;或者
  • 在 XSLT 中使用身份转换(假设您的 HTML 是 XHTML 格式或可以使用JTidy转换为该格式)以及一些其他情况来删除您不想要的属性。

无论你做什么,都不要尝试用正则表达式来做。

于 2009-02-18T11:10:26.730 回答
0

好的,以某种方式解决了这个问题。

使用 HTMLCleaner 库将输入数据解析为有效格式。

然后我使用 DOM 解析器遍历所有内容,并去除所有不允许的标签和属性。

(还有一些丑陋的小技巧;))

这是一项繁重的工作。

于 2009-02-20T13:36:18.753 回答