我有一个问题,我想过滤某些可能包含 html 的文本。我使用 jsoup 将标签列入白名单并清理效果很好。
我只有一些标签可以包含属性的问题,主要是样式或类,但也可能有不同的属性。(名称,目标等。)清理时这没问题,因为它们被很好地剥离,但是当将一些允许的标签列入白名单时,由于属性而被阻止。基本的白名单似乎没有涵盖样式或类属性,而且我不能确定我还遇到了什么。
由于我想允许相当广泛的标签,但在清理过程中删除大部分标签,我不想为我允许的所有标签添加所有属性。最简单的方法是从所有标签中删除所有属性,因为无论如何我对它们都不感兴趣,然后检查带有纯标签的剥离文本是否有效。
是否有删除所有属性或一些简单循环的功能,另一种选择是告诉白名单者忽略所有属性并简单地将标签列入白名单。