2

我正在处理格式错误的 html 页面,因此需要进行一些清理。http://validator.w3.org/ Tidy 函数产生我想要的精确输出。但是,我想将 HTML 文件作为更大 Python 脚本的一部分进行清理。我试过了:

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是,虽然 tidylib 工作正常,但输出并不像 w3 那样“漂亮”。我还找到了 w3c 标记验证服务库,但我没有找到清理 HTML 的方法。我的问题是:使用 Python 脚本(可能称为外部程序/Web 解决方案)清理 HTML 的最佳方式是什么——由 w3 生成的最佳输出方式。我是否应该在 tidylib 中使用其他选项,库中是否有适合 w3c 标记验证服务的方法,或者我应该尝试其他方法。指针/代码片段非常受欢迎。

4

1 回答 1

2

您可以通过设置整洁的选项tidylib.BASE_OPTIONS

PyTidy 示例

整洁的选项快速参考

于 2012-07-09T09:03:59.160 回答