html - 修复 html tidy 无法修复的格式错误的 html

Question

好的，所以我一直在利用 HTML tidy 将常规 HTML 网页转换为适合解析的 XHTML。问题是我在firefox中保存的测试页面的html在保存过程中显然被firefox预先清理过，称之为文件F。Html tidy在文件F上工作正常，但在通过.NET写入文件的原始数据上失败（文件N ）。Html tidy 抱怨表单标签与表格标签混合在一起。Html 不是我的，所以我不能只修复源。

如何清理文件 N 以便它可以通过 Html 整洁地运行？是否有连接到 Firefox 的标准方法（完全以编程方式，无需使用鼠标或键盘）或其他工具可以对 html 应用额外的修复？

score 1 · Accepted Answer

我已经使用 HTML tidy 有一段时间了，但后来发现我从TagSoup获得了更好的结果。

它可以用作 JAXP 解析器，即时转换非格式良好的 HTML。我通常让它解析Saxon XQuery 转换的输入。

但它也可以用作独立实用程序，作为可执行 jar。

score 0 · Accepted Answer

我最终在 C# 中使用 SendKeys 并从 user32.dll 导入函数以将 Firefox 启动到我想要的网站 (file:///myfilepathhere/) 后将其设置为活动窗口。

SendKeys 似乎需要运行一个窗口程序，所以我还添加了另一个可执行文件，它在其 form_load() 方法中执行操作。

通过使用 alt+f，向下六次，输入，稍等，输入完整路径文件名，输入（两次）然后杀死 firefox，我能够自动化 firefox 清理一些 html 的能力。

html - 修复 html tidy 无法修复的格式错误的 html

2 回答 2

Related

Reference