如何使用 C# 修复格式错误的 HTML?一个很好的答案是 HTML Agility Pack 示例!
我正在抓取一个网站(用于合法使用)。该站点的 HTML 还可以,但存在一些烦人的问题。
我可以采用的一种方法是通过正则表达式。我使用 Expression Web 来分析问题以及纠正问题所需的正则表达式。因此,一种方法是使用RegexBuddy等工具为这些正则表达式生成 C# 代码。
但是,在 C# 中处理格式错误的 HTML 的推荐工具是HTML Agility Pack (HAP)。而且,我只分析了几页,怕以后的页面会包含我还没有解决的模式,我讨厌进入“在接下来的几页中查找错误并更正它们”维护商业。因此,如果 HAP 已经有一个可靠的、始终有效的解决方案,那就太好了。问题是,除了在 SO 中提到的一些内容外,除了逐个对象的 API 帮助文件外,我找不到任何该工具的使用方法文档。
所以 - 在我花费 $ 和学习时间在 RegexBuddy(没有免费评估版)上,或者在 HAP 的 API 文档上大吃一惊之前 - 有没有一种简单的方法可以做到这一点?HAP 样本会有所帮助... :-)