xml - 如何对 html 和 xml 进行拼写检查？

Question

我必须对大量大型 html 和 xml 文档（超过 30.000 个）进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试将BASH+ linux 实用程序 ( sed, grep, ...) 与 hunspell 一起使用。Hunspell有选项 -H 强制它将文档检查为 HTML（对于 XML，该选项也适用）。但是有一个问题：它输出偏移量而不是行数，它也可以逐行检查，因为在这种情况下它会查看标签内部（他找不到封闭标签）。那么完成任务的正确方法是什么？

score 7 · Accepted Answer

我只是有一个类似的问题。您应该能够通过使用那些未记录的开关来获得良好的输出，例如-uor -U。但要小心，因为这些功能现在似乎是实验性的，我只是通过查看 hunspell 的来源才发现它们的存在。

所以本质上：

hunspell -H -u my-file.html

应该这样做。

或者，也有开关-u1，你可以玩弄。-u2-u3

score 1 · Accepted Answer

您是否尝试过使用tidy？

我没有在如此多的文件上使用它，但它可以很好地找到 100 多个 HTML 页面中的问题。您还可以在 XML 文件上使用它，并且能够接受具有许多我尚未探索的选项的配置文件。

xml - 如何对 html 和 xml 进行拼写检查？

2 回答 2

Related

Reference