4

我正在使用 HTML Tidy Online ( http://infohound.net/tidy/ ) 来整理一些非常陈旧且混乱的 HTML 文件,其中包含一些希伯来语字符。每当 Tidy 处理页面时,即使在设置中更改编码方法后,输出也会将希伯来字符变成乱码。使用不同的设置,我确实设法将希伯来字符作为 unicode 实体获得相同的输出。我用谷歌搜索了一个可能的解决方案,但没有找到。我有几个想法,但我不确定如何接近它们,如果有的话(也许有人有更好的解决方案)。

  1. 我想也许我可以(在处理页面之后)扫描页面以查找 unicode 实体并将它们替换为相应的希伯来字符(当然是以系统的方式)。
  2. 也许我可以获取 HTML Tidy 源代码并对其进行修改以适当地输出希伯来语字符。问题在于,我怀疑我是否知识渊博,甚至可以开始做这样的事情。
4

2 回答 2

2

我有一个类似的问题。UTF-8 格式的文档,包含 Unicode 字符。HTML Tidy 将它们变成了 HTML 实体。这在 HTMLTIDY.CFG 中修复了它:

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

希望能帮助到你。

于 2012-03-30T08:48:18.997 回答
0

您正在使用的网站http://infohound.net/tidy/在右下角有一个“字符编码”子句。您需要选择 utf-8,但首先您需要确保页面在您的测试编辑器中以 UTF-8 编码。例如,在 Notepad++ 中,您可以转到Encoding > Convert to UTF-8 without BOM.

于 2013-10-29T15:22:30.117 回答