问题标签 [html-agility-pack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
4052 浏览

c# - 我应该如何使用 HTMLAgilityPack AppendNode?

在星期五的这个阶段真的很头疼!我正在尝试使用 InsertAfter() 将 HtmlNode 添加到另一个。当我将其 rpint 到控制台时,我可以看到带有面包屑 ID 的 refChild 节点,但不断收到以下错误:

我的代码是:

如前所述,我已将 HtmlWrapper 和 HtmlWrapper.SelectSingleNode("//div[@id='breadcrumb']") 打印到控制台,并且可以在屏幕上看到该节点。关于我在哪里出错的任何想法?

谢谢,丹尼斯

0 投票
1 回答
1191 浏览

.net - 使用 Html Agility Pack 剥离 MS Word 标签

我有一个数据库,其中包含从 MS Word 粘贴的一些文本字段,我无法仅剥离 , 和标签,但显然保留了它们的 innerText。

我尝试过使用 HAP,但我没有朝着正确的方向前进..

此代码只是选择所需的元素并删除它们......但不保留它们的内部文本......

提前致谢

0 投票
1 回答
1788 浏览

html-parsing - 如何使用 HtmlAgility Pack 从某种形式获取输入?朗:C#.net

代码可以比我更好地解释这个问题。我还包括了我尝试过的替代方法。如果可能,请解释为什么这些其他方法也不起作用。我的想法已经用完了,遗憾的是 HtmlAgilityPack 的示例并不多。不过,我目前正在浏览文档以寻找更多想法。

我注意到的一件事是 .nextSibling 属性,我想我可以使用 while 循环来遍历表单,直到找不到下一个兄弟姐妹或表单结尾。

无论如何,这是代码:

0 投票
1 回答
266 浏览

html - 类似于 perl 的“html 敏捷包”模块

任何人都可以为 perl 推荐一个好的模块,如“html agility pack”(.net)或“Beautiful Soup”吗?

提前致谢!

0 投票
1 回答
1059 浏览

regex - HTML 敏捷包与正则表达式

如果我正在创建一个简单的网络爬虫(从根 url 抓取所有链接,然后从这些链接抓取所有电子邮件)是否值得使用 HTML Agility Pack?我实际上并没有浏览 HTML 标签,我只是想在整个文档中扫描电子邮件。

使用 HTML 敏捷包会更有效吗?

我严格剥离它们,因为我必须拥有这些电子邮件,并且大约有 100 个链接。只会抓取大约 500 封电子邮件。不用担心,我在这里牢记道德。

0 投票
1 回答
1762 浏览

c# - C#,解析 HTML 页面,使用 HTML Agility Pack

按照这个例子,我可以找到 LI 部分。

Html 敏捷包 - 解析 <li>

但是,我只想要位于 div 内的 LI 项目,其 id 为“res”。

我怎么做?

0 投票
2 回答
2720 浏览

xpath - XPath“之前的兄弟姐妹”

我正在尝试使用 XPath 1.0(或者可能使用正则表达式)选择元素 (a),这些元素遵循特定元素 (b) 的同级元素,但仅在另一个 b 元素之前。

我试图使样本尽可能接近真实世界。所以在这种情况下,当我在元素

我需要选择

当我在

我需要选择

知道如何实现吗?谢谢!

0 投票
1 回答
3979 浏览

c# - 使用 HTML Agility Pack 抓取元标记和评论

我一直在寻找有关使用 HTML Agility Pack 的教程,因为它似乎可以完成我想要它做的所有事情,但对于如此强大的工具来说,互联网上似乎很少有关于它的噪音。

我正在编写一个简单的方法,它将根据名称检索任何给定的标签:

这可以使用正则表达式轻松完成,但我们都知道使用正则表达式解析 HTML 是不对的。到目前为止,我有以下代码:

我希望能够首先从 HTML 中删除所有注释,然后根据其名称返回正确的标签。如果可能的话,我还想根据属性返回某些元标记,例如机器人。我对 xpath 不是很好,所以任何帮助都会很好。

任何帮助将非常感激。

0 投票
2 回答
378 浏览

c# - 内置正则表达式类或解析器。如何从 html 文件中提取标签之间的文本?

我有 html 文件,其中包含我的 c#.net 应用程序中的表格内容和其他信息。

我只想解析一些列的表格内容。那么我应该在.net中使用html解析器还是Regex的Replace方法?

如果我使用解析器,那么如何使用解析器?解析器会提取标签之间的信息吗?如果是,那么如何使用?如果可能,请显示该示例,因为我是解析器的新手。

如果我使用Regex类的Replace方法,那么在该方法中如何传递我想要提取信息的文件名?

编辑:我想从 html 文件中的表中提取信息。为此,我该如何使用 html 敏捷解析器?我应该编写什么类型的代码来使用该解析器?

0 投票
2 回答
24918 浏览

c# - 如何使用 HtmlAgilityPack 获取表单中的所有输入元素而不会出现空引用错误

示例 HTML:

测试代码:

该语句doc.GetElementbyId("form2").SelectNodes(".//input")给了我一个空引用。

我做错什么了吗?谢谢。