我正在使用 jericho 对 html 进行消毒,效果很好。除了在一种情况下我无法弄清楚。我想完全删除任何脚本和脚本内容。现在我删除了脚本标签,但保留了实际的脚本内容。
所以目前我创建了一个 Source 对象并执行了一个 fullSequentialParse。然后我创建一个 OutputDocument 并遍历每个标签。
当我到达“脚本”标签时,我只想用“”替换整个内容。
有任何想法吗?
TIA
我正在使用 jericho 对 html 进行消毒,效果很好。除了在一种情况下我无法弄清楚。我想完全删除任何脚本和脚本内容。现在我删除了脚本标签,但保留了实际的脚本内容。
所以目前我创建了一个 Source 对象并执行了一个 fullSequentialParse。然后我创建一个 OutputDocument 并遍历每个标签。
当我到达“脚本”标签时,我只想用“”替换整个内容。
有任何想法吗?
TIA
我不熟悉 Jericho,但是它能够在树上工作,非常类似于 DOM 树,因此您可以删除script
元素而不仅仅是标签。(不过,如果您有一个巨大的 HTML,这可能不是最佳选择)。
如果没有,那么您可以采用 SAX 方式。记住开始script
标签,当你到达结束标签时,你可以删除中间的所有东西。
简单有效的方法——
A2A :)