我们的应用程序很大程度上基于电子邮件(它是一个帮助台票务系统),我想保护我们的用户并阻止 3rd 方跟踪传入的消息 HTML(主要是跟踪像素)。
我们已经在进行 HTML/DOM 解析(以“清理”危险和不需要的标签),因此 HTML 解析并不是真正的技术挑战。挑战是如何检测 3rd 方跟踪器?我们可以使用任何共同的特征吗?
目前我想出了两种方法:
- 使用一组规则,例如:
img
有外部src
src
带有查询参数- 低维度(0 或 1)
- 只需使用现有的过滤器列表(例如,uBlock Origin,在此处发布其列表)并删除所有指向危险目的地的标签
我还缺少其他任何想法吗?很想听听以前处理过这个问题的人的一些意见。