我正在开发博客软件。有时,用户会设法将控制字符粘贴到他们的博客文章中(例如,最近有人设法粘贴了垂直制表符, )。当我们在 RSS Feed 中呈现帖子时,XML 解析器无法解析控制字符并声明 Feed 无效。
解决此问题的一种方法是对字符串进行逐个字符的扫描并删除任何无效字符。这意味着维护一个无效字符列表。有谁知道这样的列表是否已经存在?
或者也许有人知道已经处理这个问题的库?我正在用 C# 编写,但我可以移植用另一种语言编写的库。
还是有一些我缺少的解决方案?
请注意,这似乎不是 unicode 或转义问题。RSS feed 显示括号、汉字、wingdings、智能引号等就好了。只是某些控制字符似乎使提要无法验证。