问题标签 [html-agility-pack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6357 浏览

c# - 用于更改链接的 HtmlAgilityPack 示例不起作用。我该如何做到这一点?

codeplex上的示例是这样的:

第一个问题是 HtmlDocument。DocumentElement不存在!确实存在的是 HtmlDocument。DocumentNode但即使我改用它,我也无法访问所描述的 href 属性。我收到以下错误:

这是我收到此错误时尝试编译的代码:

更新:我刚刚发现该示例永远不会起作用...并且在阅读示例代码后我得到了解决方案...一旦完成,我将发布我的解决方案供像我这样的其他人享受。

0 投票
2 回答
613 浏览

html - Htmlnode收集和解析

我正在尝试提取网页中包含的文本。所以我正在使用第三方工具 Html Agility Pack。他们提到:

我可以抓取页面中包含的所有其他链接。但我想获取该页面中包含的所有文本数据。是否可以?

0 投票
1 回答
256 浏览

c# - 内部html位置

在一个 html 页面上,我有 0-4 个具有特定类名的 div。

我想要做的是从开始到第一个 div 的 html,然后从 div1 位置到 div2 位置,然后 div2 到 div3,div3 到 div4,最后 div4 到结束 html。

我已经设法使用 html.substring(0, div1.innerhtmlPos) 、 html.substring(div1End, div2.innerHtmlPos) 等来做到这一点,因为我还没有弄清楚如何获得 div 的实际位置。我试过 StreamPosition,但如果我尝试 html.substring(0, streamposOfDiv1) 它会在错误的地方被切断。

有什么方法可以在一个节点和节点之间获取所有 html?

0 投票
1 回答
120 浏览

c# - 有什么可以输出xhtml的吗?

我一直在使用 HtmlAgilityPack 来处理一些 XHTML 文档,但是,如果我想将我的文档输出为 XHTML,这是不可能的。除了 HtmlAgilityPack 之外,还有其他解决方案来转换 XHTML 吗?

我需要稍微转换一下文档,我假设使用直接 XSLT 可能更容易?

0 投票
2 回答
503 浏览

xml - 如何使用近元素选择xml节点

使用 XPath 和 HTML Agility Pack,我需要destination使用color:#ff00ff.

我的 HTML 如下所示:

0 投票
5 回答
2087 浏览

html - 使用 C# 清理 HTML

如何使用 C# 修复格式错误的 HTML?一个很好的答案是 HTML Agility Pack 示例!


我正在抓取一个网站(用于合法使用)。该站点的 HTML 还可以,但存在一些烦人的问题。

我可以采用的一种方法是通过正则表达式。我使用 Expression Web 来分析问题以及纠正问题所需的正则表达式。因此,一种方法是使用RegexBuddy等工具为这些正则表达式生成 C# 代码。

但是,在 C# 中处理格式错误的 HTML 的推荐工具是HTML Agility Pack (HAP)。而且,我只分析了几页,怕以后的页面会包含我还没有解决的模式,我讨厌进入“在接下来的几页中查找错误并更正它们”维护商业。因此,如果 HAP 已经有一个可靠的、始终有效的解决方案,那就太好了。问题是,除了在 SO 中提到的一些内容外,除了逐个对象的 API 帮助文件外,我找不到任何该工具的使用方法文档。

所以 - 在我花费 $ 和学习时间在 RegexBuddy(没有免费评估版)上,或者在 HAP 的 API 文档上大吃一惊之前 - 有没有一种简单的方法可以做到这一点?HAP 样本会有所帮助... :-)

0 投票
2 回答
2242 浏览

html - HTML 敏捷包 - 获取页面摘要

我将如何使用 HTML 敏捷包从 HTML 文件的正文中获取文本的第一段。我正在构建一个 DIGG 风格的链接提交工具,并且想要获取标题和第一段文字。标题很简单,关于如何从正文中获取第一段文本的任何建议?我猜它可能在 P 或 DIV 内,具体取决于页面。

0 投票
1 回答
1699 浏览

html - html嵌套表敏捷包有效的xpath

假设嵌套表没有唯一属性( id 、 class 或其他任何东西)来获得所需的属性

XPath 是否禁止在其路径中多次使用表?

当 SelectNodes 返回 null 时抛出异常。

如果是这样,如何使用 Agility Pack 解决没有特定属性的嵌套表的 html 解析?

0 投票
2 回答
1377 浏览

c# - Html 敏捷包结尾不起作用

我尝试ends-with在以下模式下在 Html Agility Pack 中使用://span[ends-with(@id, 'Label2')]and //span[ends-with(., 'test')],但它不起作用。

所有其他功能,喜欢starts-with并且运行contains良好。

谁能帮我?

0 投票
2 回答
14414 浏览

c# - HTML 敏捷包

我正在尝试使用 HTML Agility Pack 从以下内容中获取描述文本:

不久前 Stackoverflow 上的某个人建议我使用 HTMLAgilityPack。但是我不知道如何使用它,并且我找到的它的文档(包括下载中包含的文档)都有无效链接,因此无法查看文档。

有人可以帮我解决这个问题吗?