问题标签 [html-agility-pack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 我应该如何使用 HTMLAgilityPack AppendNode?
在星期五的这个阶段真的很头疼!我正在尝试使用 InsertAfter() 将 HtmlNode 添加到另一个。当我将其 rpint 到控制台时,我可以看到带有面包屑 ID 的 refChild 节点,但不断收到以下错误:
我的代码是:
如前所述,我已将 HtmlWrapper 和 HtmlWrapper.SelectSingleNode("//div[@id='breadcrumb']") 打印到控制台,并且可以在屏幕上看到该节点。关于我在哪里出错的任何想法?
谢谢,丹尼斯
.net - 使用 Html Agility Pack 剥离 MS Word 标签
我有一个数据库,其中包含从 MS Word 粘贴的一些文本字段,我无法仅剥离 , 和标签,但显然保留了它们的 innerText。
我尝试过使用 HAP,但我没有朝着正确的方向前进..
此代码只是选择所需的元素并删除它们......但不保留它们的内部文本......
提前致谢
html-parsing - 如何使用 HtmlAgility Pack 从某种形式获取输入?朗:C#.net
代码可以比我更好地解释这个问题。我还包括了我尝试过的替代方法。如果可能,请解释为什么这些其他方法也不起作用。我的想法已经用完了,遗憾的是 HtmlAgilityPack 的示例并不多。不过,我目前正在浏览文档以寻找更多想法。
我注意到的一件事是 .nextSibling 属性,我想我可以使用 while 循环来遍历表单,直到找不到下一个兄弟姐妹或表单结尾。
无论如何,这是代码:
html - 类似于 perl 的“html 敏捷包”模块
任何人都可以为 perl 推荐一个好的模块,如“html agility pack”(.net)或“Beautiful Soup”吗?
提前致谢!
regex - HTML 敏捷包与正则表达式
如果我正在创建一个简单的网络爬虫(从根 url 抓取所有链接,然后从这些链接抓取所有电子邮件)是否值得使用 HTML Agility Pack?我实际上并没有浏览 HTML 标签,我只是想在整个文档中扫描电子邮件。
使用 HTML 敏捷包会更有效吗?
我严格剥离它们,因为我必须拥有这些电子邮件,并且大约有 100 个链接。只会抓取大约 500 封电子邮件。不用担心,我在这里牢记道德。
xpath - XPath“之前的兄弟姐妹”
我正在尝试使用 XPath 1.0(或者可能使用正则表达式)选择元素 (a),这些元素遵循特定元素 (b) 的同级元素,但仅在另一个 b 元素之前。
我试图使样本尽可能接近真实世界。所以在这种情况下,当我在元素
我需要选择
当我在
我需要选择
知道如何实现吗?谢谢!
c# - 使用 HTML Agility Pack 抓取元标记和评论
我一直在寻找有关使用 HTML Agility Pack 的教程,因为它似乎可以完成我想要它做的所有事情,但对于如此强大的工具来说,互联网上似乎很少有关于它的噪音。
我正在编写一个简单的方法,它将根据名称检索任何给定的标签:
这可以使用正则表达式轻松完成,但我们都知道使用正则表达式解析 HTML 是不对的。到目前为止,我有以下代码:
我希望能够首先从 HTML 中删除所有注释,然后根据其名称返回正确的标签。如果可能的话,我还想根据属性返回某些元标记,例如机器人。我对 xpath 不是很好,所以任何帮助都会很好。
任何帮助将非常感激。
c# - 内置正则表达式类或解析器。如何从 html 文件中提取标签之间的文本?
我有 html 文件,其中包含我的 c#.net 应用程序中的表格内容和其他信息。
我只想解析一些列的表格内容。那么我应该在.net中使用html解析器还是Regex的Replace方法?
如果我使用解析器,那么如何使用解析器?解析器会提取标签之间的信息吗?如果是,那么如何使用?如果可能,请显示该示例,因为我是解析器的新手。
如果我使用Regex类的Replace方法,那么在该方法中如何传递我想要提取信息的文件名?
编辑:我想从 html 文件中的表中提取信息。为此,我该如何使用 html 敏捷解析器?我应该编写什么类型的代码来使用该解析器?
c# - 如何使用 HtmlAgilityPack 获取表单中的所有输入元素而不会出现空引用错误
示例 HTML:
测试代码:
该语句doc.GetElementbyId("form2").SelectNodes(".//input")
给了我一个空引用。
我做错什么了吗?谢谢。