我正在使用 HTML Tidy Online ( http://infohound.net/tidy/ ) 来整理一些非常陈旧且混乱的 HTML 文件,其中包含一些希伯来语字符。每当 Tidy 处理页面时,即使在设置中更改编码方法后,输出也会将希伯来字符变成乱码。使用不同的设置,我确实设法将希伯来字符作为 unicode 实体获得相同的输出。我用谷歌搜索了一个可能的解决方案,但没有找到。我有几个想法,但我不确定如何接近它们,如果有的话(也许有人有更好的解决方案)。
- 我想也许我可以(在处理页面之后)扫描页面以查找 unicode 实体并将它们替换为相应的希伯来字符(当然是以系统的方式)。
- 也许我可以获取 HTML Tidy 源代码并对其进行修改以适当地输出希伯来语字符。问题在于,我怀疑我是否知识渊博,甚至可以开始做这样的事情。