我正在编写一些反 XSS 代码,并希望将常见的 HTML 标签及其相应属性列入白名单。
我有一个客户在 PostgresSQL 数据库中输入 HTML 的大型数据库,并且想挖掘数据以找出不同列中常用的标签。
我正在考虑将数据库转储为纯文本并使用 grep 或 shell 脚本来查找常用标签。有什么好方法可以做到这一点?我对任何可以在 UNIX (OSX) 或 PostgreSQL 中工作的东西持开放态度。
我正在编写一些反 XSS 代码,并希望将常见的 HTML 标签及其相应属性列入白名单。
我有一个客户在 PostgresSQL 数据库中输入 HTML 的大型数据库,并且想挖掘数据以找出不同列中常用的标签。
我正在考虑将数据库转储为纯文本并使用 grep 或 shell 脚本来查找常用标签。有什么好方法可以做到这一点?我对任何可以在 UNIX (OSX) 或 PostgreSQL 中工作的东西持开放态度。
Have a look at OWASP java HTML Serializer, OWASP AntiSamy or Jsoup
https://www.owasp.org/index.php/OWASP_Java_HTML_Sanitizer https://www.owasp.org/index.php/Category:OWASP_AntiSamy_Project http://jsoup.org/