0

好的,所以我一直在利用 HTML tidy 将常规 HTML 网页转换为适合解析的 XHTML。问题是我在firefox中保存的测试页面的html在保存过程中显然被firefox预先清理过,称之为文件F。Html tidy在文件F上工作正常,但在通过.NET写入文件的原始数据上失败(文件N )。Html tidy 抱怨表单标签与表格标签混合在一起。Html 不是我的,所以我不能只修复源。

如何清理文件 N 以便它可以通过 Html 整洁地运行?是否有连接到 Firefox 的标准方法(完全以编程方式,无需使用鼠标或键盘)或其他工具可以对 html 应用额外的修复?

4

2 回答 2

1

我已经使用 HTML tidy 有一段时间了,但后来发现我从TagSoup获得了更好的结果。

它可以用作 JAXP 解析器,即时转换非格式良好的 HTML。我通常让它解析Saxon XQuery 转换的输入。

但它也可以用作独立实用程序,作为可执行 jar。

于 2012-05-15T21:50:36.973 回答
0

我最终在 C# 中使用 SendKeys 并从 user32.dll 导入函数以将 Firefox 启动到我想要的网站 (file:///myfilepathhere/) 后将其设置为活动窗口。

SendKeys 似乎需要运行一个窗口程序,所以我还添加了另一个可执行文件,它在其 form_load() 方法中执行操作。

通过使用 alt+f,向下六次,输入,稍等,输入完整路径文件名,输入(两次)然后杀死 firefox,我能够自动化 firefox 清理一些 html 的能力。

于 2012-05-18T20:48:51.980 回答