unicode - HTML Tidy 处理的希伯来字符变成乱码

Question

我正在使用 HTML Tidy Online ( http://infohound.net/tidy/ ) 来整理一些非常陈旧且混乱的 HTML 文件，其中包含一些希伯来语字符。每当 Tidy 处理页面时，即使在设置中更改编码方法后，输出也会将希伯来字符变成乱码。使用不同的设置，我确实设法将希伯来字符作为 unicode 实体获得相同的输出。我用谷歌搜索了一个可能的解决方案，但没有找到。我有几个想法，但我不确定如何接近它们，如果有的话（也许有人有更好的解决方案）。

我想也许我可以（在处理页面之后）扫描页面以查找 unicode 实体并将它们替换为相应的希伯来字符（当然是以系统的方式）。

也许我可以获取 HTML Tidy 源代码并对其进行修改以适当地输出希伯来语字符。问题在于，我怀疑我是否知识渊博，甚至可以开始做这样的事情。

score 2 · Accepted Answer

我有一个类似的问题。UTF-8 格式的文档，包含 Unicode 字符。HTML Tidy 将它们变成了 HTML 实体。这在 HTMLTIDY.CFG 中修复了它：

char-encoding: utf8
input-encoding: utf8
output-encoding: utf8

希望能帮助到你。

score 0 · Accepted Answer

您正在使用的网站http://infohound.net/tidy/在右下角有一个“字符编码”子句。您需要选择 utf-8，但首先您需要确保页面在您的测试编辑器中以 UTF-8 编码。例如，在 Notepad++ 中，您可以转到Encoding > Convert to UTF-8 without BOM.

unicode - HTML Tidy 处理的希伯来字符变成乱码

2 回答 2

Related

Reference