python - 用python整理HTML

Question

我正在处理格式错误的 html 页面，因此需要进行一些清理。http://validator.w3.org/ Tidy 函数产生我想要的精确输出。但是，我想将 HTML 文件作为更大 Python 脚本的一部分进行清理。我试过了：

from tidylib import tidy_document
tidy, errors = tidy_document(html)

但是，虽然 tidylib 工作正常，但输出并不像 w3 那样“漂亮”。我还找到了 w3c 标记验证服务库，但我没有找到清理 HTML 的方法。我的问题是：使用 Python 脚本（可能称为外部程序/Web 解决方案）清理 HTML 的最佳方式是什么——由 w3 生成的最佳输出方式。我是否应该在 tidylib 中使用其他选项，库中是否有适合 w3c 标记验证服务的方法，或者我应该尝试其他方法。指针/代码片段非常受欢迎。

score 2 · Accepted Answer

2

您可以通过设置整洁的选项tidylib.BASE_OPTIONS

PyTidy 示例

整洁的选项快速参考

于 2012-07-09T09:03:59.160 回答

python - 用python整理HTML

1 回答 1

Related

Reference