Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如何从字符串中的 HTML 标记中去除所有属性,使用 Java 的“alt”和“src”除外?
更进一步..如何从字符串中的所有“src”属性中获取内容?
:)
你可以:
无论你做什么,都不要尝试用正则表达式来做。
好的,以某种方式解决了这个问题。
使用 HTMLCleaner 库将输入数据解析为有效格式。
然后我使用 DOM 解析器遍历所有内容,并去除所有不允许的标签和属性。
(还有一些丑陋的小技巧;))
这是一项繁重的工作。