我有一个(大)文本正文,我正在尝试将其从最初的网络友好格式转换为“稍微”限制性更强的内容(epub——有些读者对他们接受的 HTML 非常挑剔) .
HTML 净化器在一类问题上工作得很好,我称之为“糟糕的编码”。诸如缺少右括号(这在技术上是合法的 HTML)以及浏览器自动解决的其他烦恼。
HTML 净化器无法正常工作的地方是遇到编码问题。许多字符保存在 Ӓ 格式,(显然?)HTML净化器不关心。也许我只需要更好地配置它。另一个问题是我存在的祸根:花引号、破折号等。我已经设法对其中一些问题进行了大规模搜索和替换,但我担心的是我可能在某个地方错过了一个角色(因为遇到一个用口音和拼写的似曾相识的案例带回家)包括严重标记)。
有没有办法让 HTML 净化器告诉我这些字符存在问题,而不是默默地剥离它们?我正在尝试查看代码,但该软件非常适合不同的用例场景(“静默”处理用户输入,而不是程序员对文本正文进行大量转换),而我只是没有看到我正在寻找的数据。