我必须对大量大型 html 和 xml 文档(超过 30.000 个)进行拼写检查。我还需要自定义字典和复杂的检查算法。我尝试将BASH
+ linux 实用程序 ( sed
, grep
, ...) 与 hunspell 一起使用。Hunspell
有选项 -H 强制它将文档检查为 HTML(对于 XML,该选项也适用)。但是有一个问题:它输出偏移量而不是行数,它也可以逐行检查,因为在这种情况下它会查看标签内部(他找不到封闭标签)。那么完成任务的正确方法是什么?
问问题
4310 次
2 回答
7
我只是有一个类似的问题。您应该能够通过使用那些未记录的开关来获得良好的输出,例如-u
or -U
。但要小心,因为这些功能现在似乎是实验性的,我只是通过查看 hunspell 的来源才发现它们的存在。
所以本质上:
hunspell -H -u my-file.html
应该这样做。
或者,也有开关-u1
,你可以玩弄。-u2
-u3
于 2012-05-16T12:56:42.697 回答
1
您是否尝试过使用tidy?
我没有在如此多的文件上使用它,但它可以很好地找到 100 多个 HTML 页面中的问题。您还可以在 XML 文件上使用它,并且能够接受具有许多我尚未探索的选项的配置文件。
于 2011-04-08T08:51:39.603 回答