2

我正在使用html 敏捷包来解析 html表格信息。现在有一些 html 内容缺少结束标签,并且由于缺少结束标签而来自此类页面 html 敏捷包无法正确解析信息。所以我想在缺少结束标签的地方插入结束标签,以便 html 敏捷包正确解析信息。那么要插入缺少的结束标签我应该怎么做?我应该为此编写自己的代码还是使用html tidy pack来做到这一点?

如果 html tidy pack 那么哪个是最好的html tidy pack,如果可能的话如何使用它的任何例子?如果我自己的代码比它可能是什么样的?

html 敏捷包中是否有任何选项可以使我们能够首先使 html 页面整洁然后解析网页。

4

2 回答 2

7

在 Html Agility Pack 中,我找不到任何使 html 页面整洁的选项。有一个选项可以插入缺少的结束标签,但它仅适用于某些 html 页面。html 敏捷包中的选项是,

  HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
      doc.OptionFixNestedTags=true;

我也为此尝试了正则表达式,但它也仅适用于某些 html 页面。

所以我发现最好的 html 整洁包是:

http://www.devx.com/dotnet/Article/20505/1763/page/2。

我们可以在那里看到:如何导入 dll 以及如何使用那个整洁的包,也有示例代码可用。太棒了。它可以插入缺少的结束标签,让你的html 页面整洁。

谢谢大家的帮助。。

于 2010-03-24T12:43:56.377 回答
0

我发现HTML Tidy ( www.html-tidy.org ) 在整理和清理 HTML 方面做得最好。

不同的二进制文件在这里-> http://binaries.html-tidy.org

还有许多语言的 HTML Tidy 包装器。我使用一个名为 TidyHtml5ManagedRepack 的 C#。

我有特定的需要来清理格式不正确的 HTML,并将其与在不同浏览器中通过 javascript 进行调整的相同或相似的 HTML 进行比较。HTML Tidy 允许我将 HTML 清理到正常/规范化的状态,这样我就可以将它与其他浏览器调整的相同 HTML 进行比较,以确信它很可能是相同的。

于 2020-07-11T11:53:35.153 回答