我正在用 PHP 构建一个 RSS 提要聚合器/阅读器。由于 RSS 本质上是用户生成的内容,我不想依赖提要内容是安全的。
我正在寻找有关清理提要内容以在用户设备上存储和显示的建议。目前,我正在使用htmlentities(feed_content)
转义所有字符,但这不起作用,因为它 UTF-8 编码无法在 Javascript 中解码回的字符(我用于前端构造)。
- Original: "Soundtrack: Dinosaur Jr. - Don’t Pretend You Didn’t Know I hadn’t thought much..."
- After htmlentities: "Copyright-Infringing Tweets Will Now Be “Withdrawn” Instead of “Disappeared..."
- After JS decodeURI: "Copyright-Infringing Tweets Will Now Be “Withdrawn” Instead of “Disappeared..."
如果我删除上面的 htmlentities,文本会正确显示。但我不确定这是否是确保数据被清理的正确方法