3

我在 html 敏捷包的帮助下解析 html 文件以从 html 文件中提取表数据。但是有一些 html 文件没有可选的结束标签,或者没有可选的起始标签。因此 html 敏捷包无法正确解析该 html 页面。如果我在记事本 ++ 中打开该 html 文件的内容然后使用选项TestFX-->TestFX HTML Tidy-->TiDy clean document并使内容像这样整洁。现在这个文件如果我用 html 敏捷包解析,那么它会正确解析它。

使用 notepad++ 整理 html 页面是最好的选择。

所以我不知道,但用户不能这样做,首先他/她用记事本++整理页面然后继续。那我该怎么办?

编辑我使用了 html tidy pack,但在某些情况下,有一些文件没有被解析,但如果我在记事本++中使这个页面整洁,那么它就会被解析。

4

3 回答 3

4

我认为 Notepad++ 正在使用 HtmlTidy 库,你也可以。主页在这里

或者,也许您可​​以在线使用 HrmlTidy 之类的服务

编辑:您似乎想使用记事本++(在 HtmlTidy 之上)。NP++ 有一组有限的命令选项,因此加载文件不会成为问题。但我找不到任何接口参考来完成您需要的其余工作:整理 HTML 并保存结果。

于 2010-05-21T12:15:55.740 回答
2

HTML Tidy独立于 Notepad++,您可以直接在您的 .NET(或其他语言)项目中使用这个开源组件。

有关在 .Net 中使用此功能的更多详细信息,请参见此处

于 2010-05-21T12:14:13.717 回答
0

HTML Tidy 也可单独使用,仅用作 Notepad++ 中的插件。您可能想直接在您的应用程序中使用它。看看http://tidy.sourceforge.net/。可以使用多种语言的实现。

于 2010-05-21T12:25:50.833 回答